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本 书 第 2 版 依然 保持 了 第 1 版 清晰 、 引 人 深思 的 写作 风格 。 读 者 可 以 又 一 次 获得 数学 、 物 理学 、 统 
计 学 以 及 信息 论 方面 的 综合 知识 。 

关于 信息 论 的 主题 包括 蚁 、 数 据 压缩 、 信 道 容量 、 率 失真 、 网 络 信息 论 以 及 假设 检验 等 领域 的 
详细 介绍 ， 旨 在 为 读者 在 理论 研究 和 应 用 方面 打下 坚实 的 基础 。 在 每 章 结束 前 提供 了 习题 集 和 要 点 
总 结 以 及 主要 论点 的 历史 回顾 。 


第 2 版 的 特点 ， 
e 重新 整合 各 章 ， 更 符合 教学 需求 
© 200 道 新 习题 
e 提供 了 关于 信 源 编码 、 投 资 组 合理 论 以 及 反馈 容量 的 新 资料 
o 更 新 的 参考 资料 


本 书 是 电子 工程 、 统 计 学 以 及 电信 方面 的 高 年 级 本 科 生 和 研究 生 学 习 信 息 论 基础 课程 的 理想 教材 。 





作 博士 是 美国 斯 坦 福 大 学 电子 工程 与 数理 统计 学 系 
者 Thomas M. Cover 的 教授 ，1991 年 获得 IEEE 颁 发 的 香农 奖 。Cover ya 
四 博士 曾 是 IEEE 信 息 论 学 会 的 主席 、IEEE 及 数理 统计 研究 所 的 高 级 会 员 、 美 国 工程 学 会 和 AAAS 

Ji 的 成 员 。 他 撰写 了 100 多 篇 技术 论文 ， 并 担任 《Open Problems in Communication and 
Computation》 的 编辑 。 


博士 是 Stratify 公 司 的 首席 科学 家 (Stratify 是 硅谷 的 一 家 
Joy A. Thomas 初创 公司 ， 专 门 研究 如 何 组 织 无 结构 信息 ) 。 他 在 得 到 
斯 坦 福 大 学 的 博士 头衔 后 ， 曾 在 纽约 的 IBM T. J. Watson 研究 中 心 工 作 了 九 年 。Thomas 博 士 曾 
获得 IEEE Charles LeGeyt Fortescue Fellowship, 
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本 书 是 信息 论 领域 中 一 本 简明 易 懂 的 教材 。 主 要 内 容 包 括 : 粹 \ 信 源 、 信 道 容量 、 率 失真 . 数 
据 压缩 与 编码 理论 和 复杂 度 理论 等 方面 的 介绍 。 本 书 还 对 网 络 信息 论 和 假设 检验 等 进行 了 介 
绍 ,并 且 以 赛马 模型 为 出 发 点 ,将 对 证 券 市 场 的 研究 纳入 了 信息 论 的 框架 ,从 新 的 视角 给 投资 组 
合 的 研究 带 来 了 全 新 的 投资 理念 和 研究 技巧 。 ` 

本 书 适合 作为 电子 工程 .统计 学 以 及 电信 方面 的 高 年 级 本 科 生 和 研究 生 的 信息 论 基 础 教程 
教材 ,也 可 供 研究 人 员 和 专业 人 士 参考 。 

Thomas M. Cover, Joy A. Thomas: Elements of Information Theory, Second Edition( ISBN-13 
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十 业 成 就 人 生 


至 立体 服务 大 众 填写 读者 调查 表 加 入 华章 书 友 会 


www.hzbook.com 获 赠 精彩 技术 书 参与 活动 和 抽奖 


尊敬 的 读者 ， 

感谢 您 选择 华章 图 书 。 为 了 聆听 您 的 意见 ， 以 便 我 们 能 够 为 您 提供 更 优秀 的 图 书 产品 ， 敬 请 您 抽出 
宝贵 的 时 间 填 写本 表 ， 并 按 底部 的 地 址 邮寄 给 我 们 (您 也 可 通过 www.hzbook.com 填 写本 表 }。 您 将 加 入 
我 们 的 “华章 书 友 会 ” ， 及 时 获得 新 书 资讯 ， 免 费 参 加 书 友 会 活动 。 我 们 将 定期 选 出 若干 名 热心 读者 ， 
免费 赠送 我 们 出 版 的 图 书 。 请 一 定 填写 书 名 书号 并 留 全 您 的 联系 信息 ， 以 便 我 们 联络 您 ， 谢 谢 ! 

书 名 : 书号 : 7-111-( ) 
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. 您 从 哪里 购买 本 书 : . 
新 华 书店 口 计算 机 专业 书店 网 上 书店 O 其 他 

. 您 对 本 书 的 评价 是 : 

技术 内 容 ORG O 一 般 口 较 差 中 理由 

文字 质量 O 很 好 口 一般 口 较 差 口 理由 

版 式 封面 口 很 好 O 一 般 DRE 口 理由 

印 装 质量 很 好 L] 一 般 [Lj 较 差 口 理由 

图 书 定价 OAS 口 合适 O 较 低 O 理由 











. 您 希望 我 们 的 图 书 在 哪些 方面 进行 改进 ? 


. 您 最 希望 我 们 出 版 哪 方面 的 图 书 ? 如 果 有 英文 版 请 写 出 书 名 . 








. 您 有 没有 写作 或 翻译 技术 图 书 的 想法 ? 
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We: 北京 市 西城 区 百 万 庄 南 街 1 号 ”机械 工 业 出 版 社 华章 公司 计算 机 图 书 策划 部 收 
邮编 ，100037 电话 : (010) 88379512 传真 (010) 68311602 E-mail: hzjsj@hzbook.com 

















译 者 & 


Cover M. Thomas 与 Joy A. Thomas 的 信息 论 基 础 可 谓 跨 世纪 的 一 本 好 书 ， 其 读者 人 数 在 信 
息 论 领域 名 列 榜首 。 说 本 书 是 信息 论 领域 中 的 Bible (圣经 ) ， 也 不 算 过 分 。 本 书 涉 及 的 相关 知识 
领域 广泛 ， 我 们 第 一 次 接 到 翻译 此 书 的 任务 时 ， 多 少 有 些 疏 恐 ， 担 心 无 法 准确 地 将 Cover 的 精 
神 和 深刻 的 内 涵 活 灵活 现 地 呈现 给 读者 。1985 年 Cover 曾经 是 沈 世 锁 教 授 的 老师 。 沈 先生 回国 
后 在 南开 大 学 带 出 了 许 许 多 多 的 优秀 学 生 。 他 们 在 国内 乃至 国际 上 都 是 信息 论 的 骨干 和 学 术 带 
SKA (Ha, BRU, ARI, RR, A, PPA, BRR, RES, iE UAFA 
学 的 信息 论 为 荣 ， 南 开 大 学 的 信息 论 现在 又 以 他 们 为 荣 )。 为 报 Cover 之 师 恩 ， 也 为 更 多 不 曾 在 
南开 大 学 学 习 的 广大 信息 论 学 子 能 够 领略 Cover 的 大 师 风 范 ， 我 们 欣然 接受 了 此 项 翻译 任务 ， 
并 且 力 争 不 辱 使 命 。 

本 书 可 谓 信息 量 巨大 的 好 书 。 在 焙 、 信 道 、 信 源 、 数 据 压 缩 与 编码 理论 ， 复 杂 度 理论 等 方 
面 独 具 特 色 ， 网 络 信息 论 更 是 一 个 新 的 亮点 。 本 书 还 以 赛马 模型 为 出 发 点 ， 将 证 券 市 场 的 研究 
纳入 信息 论 的 框架 内 研究 ， 给 证 券 市 场 研究 以 一 个 新 的 视角 。 更 难得 的 是 ， 作 者 利用 自己 深厚 
的 研究 功力 ， 将 这 三 部 分 有 机 地 结合 在 一 起 ， 不 仅 增 加 了 信息 论 的 内 涵 ， 也 增加 了 读者 群 。 特 
别 是 研究 投资 组 合 者 ， 在 适当 学 习 第 2 章 与 第 11 章 的 基础 上 ， 读 懂 第 6 章 与 第 16 章 ， 将 会 带 来 
全 新 的 投资 理念 和 证 券 研 究 的 新 技巧 。 

本 书 的 写作 风格 独特 ， 横 跨 信 息 论 、 信 和 号 学 、 计 算 机 逻辑 、 概 率 论 、 图 论 以 及 金融 等 若干 
领域 。 因 此 ， 为 了 使 得 本 书 的 翻译 风格 尽 可 能 完整 ， 并 保持 其 在 各 领域 的 特色 ， 我 们 在 翻译 中 
颇 费 心思 ， 字 其 句 酌 《， 反 复 思考 ， 同 时 ， 虚 心地 请 教 南开 大 学 从 事 相应 领域 的 同事 ， 在 此 ， 对 
他 们 表示 感谢 。 我 们 的 许多 研究 生 在 第 1 版 和 第 2 版 的 翻译 和 校对 的 过 程 中 也 做 出 了 贡献 。 而 
A, 在 第 2 版 翻译 时 ， 我 们 虚心 听取 了 第 1 版 的 读者 的 反馈 意见 ， 特 在 此 向 他 们 表示 衷心 感谢 。 
最 后 ,我们 要 对 机 械 工 业 出 版 社 华章 分 社 表示 感谢 ,编辑 们 的 认真 、 仔 细 和 热情 合作 提高 了 本 
书 的 翻译 质量 。 


译 者 
2007 年 7 月 





第 2 版 前 言 


自从 本 书 第 上 版 出 版 以 来 ， 我 们 希望 书 中 的 许多 方面 能 得 到 改进 、 重 新 编排 或 者 扩充 ， 但 
是 需 再 版 的 限制 并 不 允许 我 们 在 已 经 出 版 的 书 中 实现 这 样 的 愿望 。 而 今 在 出 新 版 之 际 ， 我 们 终 
于 有 机 会 对 原 书 做 些 改变 ， 增 加 一 些 习 题 ， 同 时 ， 讨 论 一 些 在 第 1 版 中 忽略 的 专题 。 

本 书 主要 的 变化 包括 : 各 章 的 重新 编排 ， 使 得 本 书 更 易于 教学 ; 还 增加 了 200 多 个 新 习题 。 
在 某 些 专题 中 ,我们 也 增加 了 一 些 素材 ， 如 在 普 适 性 投资 组 合理 论 、 通 用 信 源 编码 、 高 斯 反馈 
信道 容量 、 网 络 信息 论 等 方面 ， 并 且 盖 述 了 数据 压缩 和 信道 容量 的 对 偶 性 。 另 外 ， 本 书 还 新 增 
加 了 一 章 ， 同 时 对 原 书 中 大 量 的 证 明 过 程 进行 简化 ， 而 且 更 新 了 参考 文献 和 历史 回顾 点 评 。 

本 书 可 以 分 成 两 个 学 期 学 习 。 建 议 第 一 学 期 学 习 第 1 一 9 章 ， 包 括 渐 近 均 分 性 、 数 据 压 缩 和 
信道 容量 ， 结 束 于 高 斯 信道 容量 。 第 二 学 期 学 习 余 下 的 几 章 ， 包 括 率 失真 理论 、 型 方法 、 科 尔 
葛 戈 罗 夫 复杂 度 、 网 络 信息 论 、 通 用 信 源 编码 和 投资 组 合理 论 。 如 果 只 开 一 个 学 期 的 课 ， 建 议 
将 率 失真 、 科 尔 莫 艾 罗 夫 复杂 度 和 网 络 信息 论 加 入 第 一 学 期 的 教学 中 ， 其 中 后 两 者 只 需 各 上 一 
WR. 

自 第 1 版 以 来 ， 信 息 论 迎 来 了 它 的 50 岁 生 日 (香农 的 领域 开创 性 文章 50 周年 纪念 )， 源 自 
信息 论 的 许多 思想 已 经 广泛 应 用 于 科学 技术 的 众多 问题 ， 如 生物 信息 学 、 网 络 搜索 、 无 线 通 信 、 
视频 压缩 以 及 其 他 等 。 信 息 论 的 应 用 是 无 止境 的 ， 然 而 其 完美 的 数学 理论 始终 是 该 领域 最 引 人 
注目 的 地 方 。 我 们 希望 借 此 书 给 大 家 带 来 某 些 共识 ， 使 得 大 家 坚信 在 涉及 数学 、 物 理学 、 统 计 
学 和 工程 学 的 交叉 领域 中 ， 信 息 论 是 最 有 趣 的 领域 之 一 。 


TOM COVER 
JOY THOMAS 


Palo Alto, California 
2006 #1 A 





第 1 版 前 言 


本 书 是 一 本 简明 易 懂 的 信息 论 教材 。 正 如 爱 因 斯 坦 所 说 :“ 凡 事 应 该 尽 可 能 使 其 简单 到 不 能 
再 简单 为 止 。 虽然 我 们 没有 深入 考证 过 该 引 语 的 来 源 ( 据 说 最 初 是 在 幸运 蛋 卷 中 发 现 的 )， 但 
我 们 自始至终 都 将 这 种 观点 贯穿 到 本 书 的 写作 中 。 信 息 论 中 的 确 有 这 样 一 些 关 键 的 思想 和 技巧 ， 
一 旦 掌握 了 它们 ， 不仅 使 信息 论 的 主题 简明 ， 而 且 在 处 理 新 问题 时 提供 重要 的 直觉 。 

本 书 来 自 使 用 了 十 多 年 的 信息 论 讲 义 , 原 讲 义 是 信息 论 课程 的 高 年 级 本 科 生 和 一 年 级 研究 
生 两 学 期 用 的 教材 。 本 书 打算 作为 通信 理论 、 计 算 机 科学 和 统计 学 专业 学 生 学 习 信息 论 的 教材 。 

信息 论 中 有 两 个 简明 要 点 。 第 一 ， 炉 与 互信 息 这 样 的 特殊 量 是 为 了 解答 基本 问题 而 产生 的 。 
例如 ， 炳 是 随机 变量 的 最 小 描述 复杂 度 ， 互 信息 是 度量 在 噪声 背景 下 的 通信 和 速率。 另外， 我 们 
在 以 后 还 会 提 到 ， 互 信息 相当 于 已 知 边 信息 条 件 下 财富 双 倍 的 增长 。 第 二 ， 回 答 信息 理论 问题 
的 答案 具有 自然 的 代数 结构 。 例 如 ， 炉 具有 和 链 式 法 则 ， 因 而 ， 粳 和 互信 息 也 是 相关 的 。 因 此 ， 
数据 压缩 和 通信 中 的 问题 得 到 广泛 的 解释 。 我 们 都 有 这 样 的 感受 ， 当 研究 某 个 问题 时 ， 往 往 历 . 
经 大 量 的 代数 运算 推理 得 到 了 结果 ， 但 此 时 没有 真正 了 解 问题 的 全 貌 ， 最 终 是 通过 反复 观察 结 
果 ， 才 对 整个 问题 有 完整 、 明 确 的 认识 。 所 以 ， 对 一 个 问题 的 全 面 理 解 ， 不 是 靠 推理 ， 而 是 靠 
对 结果 的 观察 。 要 更 具体 地 说 明 这 一 点 ， 物 理学 中 的 牛顿 三 大 定律 和 巷 定 刘 波 动 方程 也 许 是 最 
合适 的 例子 。 谁 曾 预见 过 薛 定 谓 波 动 方程 后 来 会 有 如 此 令 人 敬 晨 的 哲学 解释 呢 ? 

在 本 书 中 ， 我 们 常会 在 着 眼 于 问题 之 前 ， 先 了 解 一 下 答案 的 性 质 。 比 如 第 2 章 中 ， 我 们 定 
义 焙 、 相 对 和 焙 和 互信 息 ， 研 究 它 们 之 间 的 关系 ， 再 对 这 些 关 系 作 一 点 解释 ， 由 此 揭示 如 何 融 会 
贯通 地 使 用 各 式 各 样 的 方法 解决 实际 问题 。 同 理 ， 我 们 顺便 探讨 热力 学 第 二 定律 的 含义 。 炉 总 
是 增加 吗 ? 答案 既 肯 定 也 否定 。 这 种 结果 会 令 专家 感 兴趣 ， 但 初学 者 或 许 认 为 这 是 必然 的 而 不 
会 深入 考虑 。 

在 实际 教学 中 ,教师 往往 会 加 入 一 些 自己 的 见解 。 事 实 上 ， 和 寻找 无 人 知道 的 证 明 或 者 有 所 
创新 的 结果 是 一 件 很 愉快 的 事情 。 如 果 有 人 将 新 的 思想 和 已 经 证 明 的 内 容 在 课堂 上 讲解 给 学 生 ， 
那么 不 仅 学 生 会 积极 反馈 “对 ， 对 ， 对 ”, 而 且 会 大 大 地 提升 教授 该 课程 的 乐趣 。 我 们 正 是 这 样 
从 研究 本 教材 的 许多 新 想法 中 获得 乐趣 的 。 

本 书 加 入 的 新 素材 实例 包括 信息 论 与 博弈 之 间 的 关系 ， 马 尔 可 夫 链 背景 下 热力 学 第 二 定律 
的 普遍 性 问题 ， 信 和 道 容量 定理 的 联合 典型 性 证 明 ， 赫 夫 晏 码 的 竞争 最 优 性 ， 以 及 关于 最 大 粮 谱 
密度 估计 的 伯 格 (Burg) 定理 的 证 明 。 科 和 尔 莫 戈 罗 夫 复杂 度 这 一 章 也 是 本 书 的 独到 之 处 。 而 将 
费 希 尔 信息 ， 互 信息 、 中 心 极 限定 理 以 及 布 伦 -闵可夫 斯 基 不 等 式 与 粹 宪 不 等 式 联系 在 一 起 ， 
也 是 我 们 引 以 为 豪 之 处 。 令 我 们 感到 惊讶 的 是 ， 关 于 行列 式 不 等 式 的 许多 经 典 结论 ， 当 利用 信 
息 论 不 等 式 后 会 很 容易 得 到 证 明 。 

自从 香农 的 奠基 性 论文 面世 以 来 ， 尽 管 信 息 论 已 有 了 相当 大 的 发 展 ， 但 我 们 还 是 要 努力 强 
调 它 的 连贯 性 。 虽然 香农 创立 信息 论 时 受到 通信 理论 中 的 问题 启发 ， 然 而 我 们 认为 信息 论 是 一 
门 独立 的 学 科 ， 可 应 用 于 通信 理论 和 统计 学 中 。 我 们 将 信息 论 作 为 一 个 学 科 领 域 从 通信 理论 、 
概率 论 和 统计 学 的 背景 中 独立 出 来 ， 因 为 明显 不 可 能 从 这 些 学 科 中 获得 难以 理解 的 信息 概念 。 

由 于 本 书 中 绝 大 多 数 结论 以 定理 和 证 明 的 形式 给 出 ， 所 以 ,我 们 期 望 通过 对 这 些 定理 的 巧 
妙 证 明 能 说 明 这 些 结论 的 完美 性 。 一 般 来 讲 ， 我 们 在 介绍 问题 之 前 先 描述 问题 的 解 的 性 质 ， 而 
这 些 很 有 趣 的 性 质 会 使 接 下 来 的 证 明 顺 理 成 章 。 
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使 用 不 等 式 串 、 中 间 不 加 任何 文字 、 最 后 直接 加 以 解释 ， 是 我 们 在 表述 方式 上 的 一 项 创新 。 
希望 读者 学 习 我 们 所 给 的 证 明 过 程 达到 一 定数 量 时 ， 在 没有 任何 解释 的 情况 下 就 能 理解 其 中 的 
大 部 分 步 又， 并 自己 给 出 所 需 的 解释 。 这 些 不 等 式 串 好 比 模拟 测试 题 ， 读 者 可 以 通过 它们 确认 
自己 是 否 已 掌握 证 明 那 些 重要 定理 的 必 备 知识 。 这 些 证 明 过 程 的 自然 流程 是 如 此 引 人 注 目 ， 以 
至 于 导致 我 们 轻视 了 写作 技巧 中 的 某 条 重要 原则 。 由 于 没有 多 余 的 话 ， 因 而 突出 了 思路 的 逻辑 
性 与 主题 思想 。 我 们 希望 当 读者 阅读 完 本 书后 ， 能 够 与 我 们 共同 分 享 我 们 所 推崇 的 ， 具 有 优美 、 
简洁 和 自然 风格 的 信息 论 。 

本 书 广泛 使 用 弱 的 典型 序列 的 方法 ， 此 概念 可 以 追溯 到 香农 1948 年 的 创造 性 工作 ， 而 它 真 
正 得 到 发 展 是 在 20 世纪 70 年 代 初 期 。 其 中 的 主要 思想 就 是 所 谓 的 渐 近 均 分 性 (AEP), ya 
以 粗略 地 说 成 “几乎 一 切 事 情 都 是 等 可 能 的 ”。 

第 2 章 曾 述 了 焙 、 相 对 粹 和 互信 息 之 间 的 基本 代数 关系 。 渐 近 均 分 性 是 第 3 章 重 中 之 重 的 
内 容 ， 这 也 使 我 们 将 随机 过 程 和 数据 压缩 的 糖 率 分 别 放 在 第 4 章 和 第 5 章 中 论述 。 第 6 章 介绍 
博弈 ， 研 究 了 数据 压缩 的 对 偶 性 和 财富 的 增长 率 。 

可 作为 对 信息 论 进行 理性 思考 基础 的 科 尔 莫 戈 罗 夫 复杂 度 ， 拥 有 着 巨大 的 成 果 ， 放 在 第 14 
章 中 论述 。 我 们 的 目标 是 寻找 一 个 通用 的 最 短 描述 ， 而 不 是 平均 意义 下 的 次 佳 描述 。 的 确 存在 
这 样 的 普遍 性 概念 用 来 刻画 一 个 对 象 的 复杂 度 。 该 章 也 论述 了 神奇 数 Q， 揭 示 数 学 上 的 不 少 奥 
秘 ， 是 图 灵机 停止 运转 概率 的 推广 。 

第 7 章 论述 信道 容量 定理 。 第 8 章 叙 述 微分 焙 的 必需 知识 , 它们 是 将 早期 容量 定理 推广 到 连 
续 品 声 信 道 的 基础 。 基 本 的 高 斯 信道 容量 问题 在 第 9 章 中 论述 。 

第 11 章 阐述 信息 论 和 统计 学 之 间 的 关系 ，20 世纪 50 年 代 初 期 库 尔 贝 克 (Kullback) 首次 对 
此 进行 了 研究 ， 此 后 相对 被 忽视 。 由 于 率 失真 理论 比 无 噪声 数据 压缩 理论 需要 更 多 的 背景 知识 ， 
因而 将 其 放置 在 正文 中 比较 靠 后 的 第 10 章 。 

网 络 信息 理论 是 个 大 的 主题 ， 安 排 在 第 15 章 ， 主 要 研究 的 是 噪声 和 干扰 存在 情形 下 的 同时 
可 达 的 信息 流 。 有 许多 新 的 思想 在 网 络 信息 理论 中 开始 活跃 起 来 ， 其 主要 新 要 素 有 干扰 和 反馈 。 
第 16 章 讲述 股票 市 场 ， 这 是 第 6 章 所 讨论 的 博弈 的 推广 ， 也 再 次 表明 了 信息 论 和 博弈 之 间 的 紧 
密 联系 。 

第 17 章 讲述 信息 论 中 的 不 等 式 ， 我 们 借 此 一 阳 把 散布 于 全 书 中 的 有 趣 不 等 式 重 新 收拢 在 一 
个 新 的 框架 中 ， 表 加 上 一 些 关于 随机 抽取 子 集 粹 率 的 有 趣 新 不 等 式 。 集 合 和 的 体积 的 布 伦 一 闵 
可 夫 斯 基 不 等 式 ， 独 立 随 机 变量 之 和 的 有 效 方差 的 箭 守 不 等 式 以 及 费 希 尔 信息 不 等 式 之 间 的 美 
妙 关 系 也 将 在 此 章 中 得 到 详尽 的 前 述 。 

本 书 力 求 推理 严密 ， 因 此 对 数学 的 要 求 相 当 高 ， 要 求 读 者 至 少 学 过 一 学 期 的 概率 论 课程 且 
有 扎实 的 数学 背景 ， 大 致 为 本 科 高 年 级 或 研究 生 一 年 级 水 平 。 尽 管 如 此 ， 我 们 还 是 努力 避免 使 
用 测度 论 。 因 为 了 解 它 只 对 第 16 章 中 的 遍历 过 程 的 AEP 的 证 明 过 程 起 到 简化 作用 。 这 符合 我 
们 的 观点 ， 那 就 是 信息 论 基 础 与 技巧 不 同 ， 后 者 才 需 要 将 所 有 推广 都 写 进去 。 

ASSAY EES 2, 3, 4,5, 7, 8,9, 10,，11 和 15 章 ， 它 们 自 成 体系 ， 读 懂 了 它们 就 可 
以 对 信息 论 有 很 好 的 理解 。 但 在 我 们 看 来 ， 第 14 章 的 科 尔 莫 戈 罗 夫 复杂 度 是 深入 理解 信息 论 所 
需 的 必 备 知识 。 余 下 的 几 章 ， 从 博弈 到 不 等 式 ， 目 的 是 使 主题 更 加 连贯 和 完美 。 

任何 教程 都 有 它 的 第 一 讲 ， 目 的 是 给 出 其 主要 思想 的 简短 预览 和 概述 。 本 书 的 第 1 章 就 是 
为 这 个 目的 而 设置 的 。 


TOM COVER 
JOY THOMAS 


Palo Alto，California 
1990 年 6 月 
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第 1 章 ALIMA 


信息 论 解答 了 通信 理论 中 的 两 个 基本 问题 : 临界 数据 压缩 的 值 (答案 : A 五 ) 和 临界 通信 传输 
速率 的 值 (答案 : 信道 容量 C) 。 因 此 ,有 人 认为 信息 论 是 通信 理论 的 一 个 组 成 部 分 , 但 我 们 将 间 
HARE AWERI Fi RK, 信息论 在 统计 物理 (热力 学 )、 计 算 机 科学 ( 科 尔 莫 戈 罗 夫 
(Kolmogorov) 复 杂 度 或 算法 复杂 度 )、 统计 推断 ( 奥 克 姆 剃刀 (Occam Razor):“ 最 简洁 的 解释 最 
佳 ") 以 及 概率 和 统计 (关于 最 优化 假设 检验 与 估计 的 误差 指数 ) 等 学 科 中 都 具有 英 基 性 的 贡献 。 

本 章 是 “开场 白 "通过 介绍 信息 论 及 其 关联 的 思想 的 来 龙 去 脉 , 提纲 帮 领 地 给 出 该 书 的 整体 
布局 。 所 涉及 的 术语 和 内 容 , 将 从 第 2 
章 开始 逐步 给 予 详细 叙述 和 讨论 。 图 
1-1 揭示 了 信息 论 与 其 他 学 科 之 间 的 关 
系 。 如 图 中 所 示 , 信息 论 与 物理 学 ( 统 
计 力学 )、 数 学 (概率 论 )、 电子 工程 ( 通 
信 理 论 ) 以 及 计算 机 科学 (算法 复杂 度 ) 
都 有 交叉 。 我 们 接 下 来 对 这 些 交叉 的 
领域 作 更 详细 的 说 明 。 

电子 工程 (通信 理论 )。20 世纪 40 
年 代 早 期 ,人们 普遍 认为 ， 以 正 速率 发 
送信 息 ,而 忽略 误差 概率 是 不 可 能 做 
到 的 。 然 而 ,香农 (Shannon) 证 明了 只 
要 通信 速率 低 于 信道 容量 , 总 可 以 使 
误差 概率 接近 于 零 , 这 个 结论 震惊 了 
通信 理论 界 。 信 道 容量 可 以 根据 信道 
的 噪声 特征 简单 地 计算 出 来 。 香 农 还 
进一步 讨论 了 诸如 音乐 和 语音 等 随机 图 1-1 信息 论 与 其 他 学 科 的 关系 
信号 都 有 一 个 不 可 再 降低 的 复杂 度 ， 
当 低 于 该 值 时 ， 信 号 就 不 可 能 被 压缩。 遵从 热力 学 的 习惯 ,他 将 这 个 临界 复杂 度 命名 为 炳 , 并 且 [| 
讨论 了 当 信 源 的 炉 小 于 信道 容量 时 ,可 以 实现 渐 近 无 误差 通信 。 

如 果 将 所 有 可 能 的 通信 方案 看 成 一 个 集合 ， 那 ee rani 
么 今天 的 信息 论 描绘 了 这 个 集合 的 两 个 临界 值 ， 如 
图 1-2 所 示 。 数 据 压缩 达到 最 低 程度 的 方案 对 应 的 、 
是 该 集合 的 左 临界 值 1(X; 必 )。 所 有 数据 压缩 方 。min/X: 信 a mat 1) 
案 所 需 的 描述 速率 不 得 低 于 该 临界 值 。 右 临界 值 W2 通信 理论 的 信息 论 临界 点 [2] 
1(X;Y) 所 对 应 方案 的 数据 传输 速率 最 大 , 临界 值 
XG” Y) 就 是 信道 容量 。 因 此 ,所 有 调制 方案 和 数据 压缩 方案 都 必须 介 于 这 两 个 临界 值 之 间 。 

信息 论 也 提供 能 够 达到 这 些 临界 值 的 通信 方案 。 从 理论 上 讲 , 最 佳 通信 方案 固然 很 好 , 但 从 
计算 的 角度 看 , 它们 往往 是 不 切实 际 的 。 惟 一 的 原因 是 , 只 有 使 用 简单 的 调制 与 解 调 方案 时 才 具 


Kelly #7 











数据 传输 临界 什 








2 RLF 





有 计算 可 行 性 , 而 香农 信道 容量 定理 的 证 明 过 程 中 所 提出 的 随机 编码 和 最 邻近 译 码 规则 却 不 然 。 
集成 电路 与 编码 设计 方面 的 进展 使 得 我 们 能 获得 香农 理论 所 蕴涵 的 一 些 硕果 。 随 着 Turbo 码 的 
诞生 ,最 终 实现 了 计算 的 实用 性 。 比 如 , 纠 错 码 在 光盘 和 DVD 中 的 应 用 就 是 信息 论 的 一 个 绝 好 
实例 。 

信息 论 中 关于 通信 方面 的 近期 研究 集中 在 网 络 信息 论 : 存在 干扰 和 噪声 的 情况 下 , 大量 发 送 
器 到 大 量 接收 器 之 间 的 通信 同步 率 理 论 。 目 前 ,多 个 发 送 器 与 多 个 接收 器 之 间 的 一 些 速率 协定 
还 无 法 预料 , 已 有 协定 也 有 待 于 从 数学 上 得 到 一 定 程 度 的 简化 。 因 而 , 一 套 统 一 的 理论 尚 待 
发 据 。 

HANEEF RRAS REZE), PARARE K, Chaitin 和 Solomonoff 指出 , 一 组 数据 串 
的 复杂 度 可 以 定义 为 计算 该 数据 串 所 需 的 最 短 二 进 制程 序 的 长 度 。 因此, 复杂 度 就 是 最 小 描述 长 
度 。 利 用 这 种 方式 定义 的 复杂 度 是 通用 的 ， 即 与 具体 的 计算 机 无 关 , 因此 该 定义 具有 相当 重要 的 
意义 。 科 尔 莫 苹 罗 夫 复杂 度 的 定义 为 描述 复杂 度 的 理论 奠定 了 基础 。 更 令 人 愉快 的 是 , 如 果 序 列 
ARMA H 的 分 布 , 那么 该 序列 的 科 尔 莫 戈 罗 夫 复杂 度 KRUSE RMA. HUBER 
尔 莫 龙 罗 夫 复 杂 度 二 者 有 着 非常 紧密 的 联系 。 实 际 上 , PAKAR RERE EKEKA AE. 
它 不 仅 是 数据 压缩 的 临界 值 , 而 且 也 可 以 导出 逻辑 上 一 致 的 推理 过 程 。 

算法 复杂 度 与 计算 复杂 度 二 者 之 间 存 在 着 微妙 的 互补 关系 。 计 算 复 杂 度 (也 就 是 时 间 复 杂 
度 ) 与 科 尔 莫 芯 罗 夫 复杂 度 ( 也 就 是 程序 长 度 或 描述 复杂 度 ) 可 以 看 成 是 对 应 于 程序 运行 时 间 与 程 
序 长 度 的 两 条 轴 。 科 和 尔 莫 戈 罗 夫 复杂 度 是 沿 第 二 条 轴 的 最 小 化 问题 ,而 计算 复杂 度 是 沿 第 一 条 
轴 的 最 小 化 问题 。 沿 两 条 轴 同 时 进行 最 小 化 的 工作 几乎 没有 。 

物理 学 (热力 学 )。 灶 与 热力 学 第 二 定律 都 诞生 于 统计 力学 。 对 于 孤立 系统 , Mk ws. 
热力 学 第 二 定律 的 贡献 之 一 是 促使 我 们 抛弃 了 存在 永 动机 的 幻想 。 我 们 将 在 第 4 章 中 简 述 该 
定律 。 7 

数学 (概率 论 和 统计 学 )。 FRO PEE RSE, 定义 成 概率 分 布 的 泛 
函数 。 它 们 中 的 任何 一 个 量 都 能 刻画 随机 变量 长 序列 的 行为 特征 ,使 得 我 们 能 够 估计 稀有 事件 
的 概率 (大 偏差 理论 ), 并 且 在 假设 检验 中 找到 最 佳 的 误差 指数 。 

科学 的 哲学 观 ( 奥 克 姆 剃刀 )。 奥 克 姆 居士 威廉 说 过 “ 因 不 宜 超出 果 之 所 需 。” 其 意思 是 “最 简 
单 的 解释 是 最 佳 的 "。Solomonoff 和 Chaitin 很 有 说 服 力 地 讨论 了 这 样 的 推理 : 谁 能 获得 适合 处 理 
数据 的 所 有 程序 的 加 权 组 合 , 并 能 观察 到 下 一 步 的 输出 值 , 谁 就 能 得 到 万 能 的 预测 程序 。 如 果 是 
这 样 , 这 个 推理 可 以 用 来 解决 许多 使 用 统计 方法 不 能 处 理 的 问题 。 例 如 , 这 样 的 程序 能 够 最 终 预 
测 圆周 率 r 的 小 数 点 后 面 遥远 位 置 上 的 数值 。 将 这 个 程序 应 用 到 硬币 的 正面 出 现 概率 为 0.7 的 
HPAP, 也 能 得 出 推断 。 不 仅 如 此 ,如 果 应 用 到 股票 市 场 , 程序 能 从 根本 上 抓 住 市 场 的 
“规律 "并 做 出 最 优化 的 推断 。 这 样 的 程序 能 够 从 理论 上 保证 推出 物理 学 中 的 牛顿 三 大 定律 。 当 
A, 这 样 的 推理 极度 的 不 切实 际 , 因为 清除 所 有 不 适合 生成 现 有 数据 的 程序 需要 花费 的 时 间 是 不 
可 接受 的 。 如 果 我 们 按照 这 种 推理 来 预测 明天 将 要 发 生 的 事情 , 那么 需要 花 一 百年 的 时 间 。 

经 济 学 (投资 )。 在 平稳 的 股票 市 场 中 重复 投资 会 使 财富 以 指数 增长 。 财富 的 增长 率 与 股票 
市 场 的 炉 率 有 对 侦 关 系 。 股票 市 场 中 的 优化 投资 理论 与 信息 论 的 相似 性 是 非常 显著 的 。 我 们 将 
通过 探索 这 种 对 偶 性 来 丰富 投资 理论 。 

计算 与 通信 。 当 将 一 些 较 小 型 的 计算 机 组 装 成 较 大 型 的 计算 机 时 , 会 受到 计算 和 通信 的 双 
重 限 制 。 计 算 受 制 于 通信 速度 , 而 通信 又 受制 于 计算 速度 , 它们 相互 影响 、 相 互 制约 。 因 此 , 通 
信和 理论 中 所 有 以 信息 论 为 基础 所 开发 的 成 果 , 都 会 对 计算 理论 造成 直接 的 影响 。 
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本 书 概览 


信息 论 最 初 所 处 理 的 问题 是 数据 压缩 与 传输 领域 中 的 问题 , 其 处 理 方法 利用 了 粹 和 互信 息 
等 基本 量 , 它们 是 通信 过 程 的 概率 分 布 的 函数 。 先 给 出 一 些 定义 , 这 会 有 助 于 开始 讨论 , 在 第 2 
章 中 我 们 会 重 述 这 些 定义 。 
如 果 随 机 变量 X 的 概率 密度 函数 为 p(x), 那么 X HEH 
H(X) =- Dp(z)log, p(x) (1-1) 


使 用 以 2 为 底 的 对 数 函 数 , HARA ECE. BT a PE A RE OF NE EEE E 
平均 意义 下 , 它 是 为 了 描述 该 随机 变量 所 需 的 比特 数 。 
例 1.1.1 考虑 一 个 服从 均匀 分 布 且 有 32 种 可 能 结果 的 随机 变量 。 为 确定 一 个 结果 , 需要 
一 个 能 够 容纳 32 个 不 同 值 的 标识 。 因 此 , 用 5 比特 的 字符 串 足 以 描述 这 些 标 识 。 
该 随机 变量 的 炳 为 
H(X) =- pli)logp(i) =- DU 33 low 35 = 10g 32 = 5 比特 (1-2) 


f= 


这 个 值 恰好 等 于 描述 该 随机 变量 X 所 需要 的 比特 数 。 在 此 情形 中 , 所 有 结果 都 有 相同 长 度 的 
表示 。 
下 面 考虑 一 个 非 均匀 分 布 的 例子 。 


例 1.1.2 假定 有 8 匹 马 参加 的 一 场 赛马 比赛 。 设 8 MRR (> gag 
十 ,十 , 击 , 击 )。 我 们 可 以 计算 出 该 场 赛马 的 炳 为 








H(X)= Flog 1 Flog 1 - Flog ~ Llog E 4 Flog 4=2 比特 (1-3) 

假定 我 们 要 把 哪 匹 马 会 获胜 的 消息 发 送出 去 ,其 中 一 个 策略 是 发 送 胜出 马 的 编号 。 这 样 ， 对 
任何 一 匹 马 , 描述 需要 3 比特 。 但 由 于 获胜 的 概率 不 是 均等 的 , 因此 , 明智 的 方法 是 对 获胜 可 能 
性 较 大 的 马 使 用 较 短 的 描述 , 而 对 获胜 可 能 性 较 小 的 马 使 用 较 长 的 描述 。 这 样 做 , 我 们 会 获得 一 
个 更 短 的 平均 描述 长 度 。 例 如 ,使 用 以 下 的 一 组 二 元 字符 串 来 表示 8 匹 马 : 0, 10, 110, 1110, 
111100, 111101, 111110, 111111。 此 时 , 平均 描述 长 度 为 2 比特 , 比 使 用 等 长 编码 时 所 用 的 3 比 
特 小 。 注 意 , 此 时 的 平均 描述 长 度 2 ERS. ERS 章 中 , 我 们 将 证 明 任 何 随机 变量 的 炳 必 
为 表示 这 个 随机 变量 所 需要 的 平均 比特 数 的 一 个 下 界 。 另 外 , 在 “20 问题 "的 游戏 中 , 将 所 需 问 
题 的 数目 看 成 随机 变量 , 那么 它 的 炳 也 是 所 需 问题 数目 的 平均 值 的 下 界 。 我 们 也 将 说 明 如 何 构 
造 一 些 表 示 法 使 其 平均 长 度 与 粹 相 比 较 不 超过 1 比特 。 

信息 论 中 的 粹 与 统计 力学 中 的 炉 概念 有 着 紧密 的 联系 。 如 果 抽 出 一 个 包含 ”个 独立 同 分 布 
(i.i.d. ) 的 随机 变量 的 序列 , 我 们 将 证 明 该 序列 是 “典型 "序列 的 概率 大 约 为 2- "52 ,而 且 大 约 只 能 
抽出 2 个 典型 序列 。 这 个 性 质 (著名 的 渐 近 均 分 性 ，AEP) 是 信息 论 中 许多 证 明 的 基础 。 随 后 我 
们 将 介绍 利用 箭 自然 地 解答 的 一 些 问 题 ( 例 如 , 生成 一 个 随机 变量 所 需 的 抛掷 均匀 硬币 的 次 数 )。 

随机 变量 的 描述 复杂 度 的 概念 可 以 推广 到 定义 单个 字符 串 的 描述 复杂 度 。 二 元 字符 串 的 科 
尔 莫 苞 罗 夫 复杂 度 定义 为 输出 该 字符 串 所 需 的 最 短 计算 机 程序 的 长 度 。 如 果 字 符 串 确实 是 随机 
的 , RAH KEL ERASERS CHA. DATE HNARS ER, 科 尔 莫 戈 罗 
夫 复杂 度 是 一 个 自然 的 框架 , 使 我 们 对 奥 克 姆 着 刀 “ 最 简洁 的 解释 最 佳 " 有 更 加 透彻 的 理解 。 我 们 
将 在 第 14 章 中 叙述 科 尔 莫 戈 罗 夫 复杂 度 的 一 些 简单 性 质 。 
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单个 随机 变量 的 炉 为 该 随机 变量 的 不 确定 度 。 我 们 还 可 以 定义 涉及 两 个 随机 变量 的 条 件 焕 
H(X|Y), 即 一 个 随机 变量 在 给 定 另外 一 个 随机 变量 的 条 件 下 的 粹 。 由 另 一 随机 变量 导致 的 原 
随机 变量 不 确定 度 的 缩减 量 称 为 互信 息 。 具 体 地 讲 , 设 X 和 了 是 两 个 随机 变量 , 那么 这 个 缩减 
量 为 互信 息 

I(X;Y) = H(X) - H(X/Y) = Spx, y)log L (1-4) 
ty p(x) ply) 
互信 息 TI(X;Y) 是 两 个 随机 变量 相互 之 间 独 立 程度 的 度量 , CXT X 和 了 对 称 , 并 且 永 远 为 非 
负 值 , 当 且 仅 当 X AY 相互 独立 时 , 等 于 零 。 

通信 信道 是 一 个 系统 , 系统 的 输出 信号 按 概率 依赖 于 输入 信和 号。 该 系统 特征 由 一 个 转移 概 
RERE p(y|z) 决 定 ,该 矩阵 决定 在 给 定 输入 情况 下 输出 的 条 件 概率 分 布 。 对 于 输入 信号 为 X 
和 输出 信号 为 了 的 通信 信道 , 定义 它 的 信道 容量 C 为 

C=max I(X;Y) (1-5) 
以 后 我 们 将 证 明 容量 是 可 以 使 用 该 信道 发 送信 息 的 最 大 速率 ,而 且 在 接收 端 以 极 低 的 误差 概率 
恢复 出 该 信息 。 下 面 用 一 些 例子 来 说 明 这 点 。 

例 1.1.3 (无 噪声 二 元 信道 ) 对 于 无 噪声 二 元 信道 , 二 元 输入 信号 在 输出 端 精确 地 恢复 出 
来 , 如 图 1-3 所 示 。 此 信道 中 , 任何 传输 的 信号 都 会 毫 无 误差 地 被 接收 。 因 此 , 在 每 次 传输 中 ， 
可 以 将 1 比特 的 信息 可 靠 地 发 送 给 接收 端 ， 从 而 信道 容量 为 1 比特 , 也 可 以 计算 得 出 信道 容量 为 
C=max 1(X;Y)=1 比特 。 

例 1.1.4 (有 骂 声 四 字符 信道 ) 观察 如 图 1-4 所 示 的 信道 。 在 该 信道 中 , 传输 每 个 输入 字符 
时 ,能 够 正确 地 接收 到 该 字符 的 概率 为 地， 误 判 为 它 的 下 一 个 字符 的 概率 也 为 廊 。 如 果 将 4 个 输 
入 字符 全 部 考虑 进去 , 那么 在 接收 端 , 仅 赁 输出 结果 根本 不 可 能 确切 地 判定 原来 传输 的 是 哪个 字 
符 。 另 一 方面 , 如 果 仅 使 用 2 个 输入 (比如 1 和 3), 我 们 立即 可 以 根据 输出 结果 知道 传输 的 是 哪 
个 输入 字符 。 于 是 , 这 种 信道 相当 于 例 1.1.3 中 的 无 噪声 信道 ,该 信道 上 每 传输 一 次 可 以 毫 无 误 
差 地 发 送 1 比特 信息 。 此 时 , 可 以 计算 出 信道 容量 C= max I(X;Y), 亦 等 于 1 比特 /传输 , 这 符 
合 上 述 分 析 。 
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图 1-3 无 噪声 二 元 信道 , C=1 比特 图 1-4 AMS Rie 


一 般 , 通信 信道 的 结构 不 会 像 我 们 所 举 的 例子 这 样 简单 , 所 以 并 不 总 能 准确 无 误 地 识别 出 所 
发 送 的 信息 的 某 个 子 集 。 但 是 , 如果 考 虑 一 系列 传输 , 那么 任何 信道 看 起 来 都 会 像 此 例 一 样 ， 并 
且 均 可 以 识别 出 输入 序列 集合 ( 码 字 集 ) 的 一 个 子 集 , 其 传输 信息 的 方式 是 : 对 应 于 每 个 码 字 的 所 
有 可 能 输出 序列 构成 的 集合 近似 不 相交 。 此 时 ,我们 可 以 观察 输出 序列 , 能 够 以 极 低 的 误差 概率 
识别 出 相应 的 输入 码 字 。 

例 1.1.5( 二 元 对 称 信道 ) 二 元 对 称 信道 是 有 噪声 通信 系统 的 一 个 基本 例子 , 如 图 1-5 所 
示 。 此 信道 有 一 个 二 元 输入 , 输出 字符 与 输入 字符 相同 的 概率 为 1- p。 另 外 , 0 被 接收 为 1 的 概 
率 为 p, 1 被 接收 为 0 的 概率 也 是 p。 此 时 , 可 以 计算 得 到 信道 容量 为 C=1+ plogp + (1 p) 
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log(1- p) 比 特 / 传 输 。 如 何 达 到 该 信道 容量 已 经 不 再 明显 了 。 RTT, 如 果 多 次 使 用 该 信道 , 那么 该 
信道 就 会 开始 类 似 于 例 1.1.4 所 示 的 四 字符 信道 ， 从 而 能 以 C l- 
比特 /传输 的 速率 发 送信 息 而 几乎 不 发 生 误差。 
信道 上 的 信息 通信 速率 的 临界 值 由 信道 容量 决定 。 信道 编 
码 定理 证 明 该 临界 值 可 利用 较 长 的 分 组 编码 达到 。 在 实际 的 通 p 
信 系统 中 , 由 于 能 够 使 用 的 编码 的 复杂 度 是 有 限制 的 , 因此 我 
们 一 般 无 法 达到 该 信道 容量 。 | i 
互信 息 实际 上 是 更 广泛 量 的 相对 粹 D( | 9 ) 的 特殊 情形 。 
相对 炳 是 两 个 概率 密度 函数 p 和 g 之 间 的 “距离 "度量 , 定义 为 图 1-5 二 元 对 称 信道 
D(pllq) = Pp) og BD (1-6) 
尽管 相对 煽 并 不 是 一 个 真正 的 度量 , 但 它 有 着 度量 的 某 些 性 质 。 特 别 是 相对 炳 总 是 非 负 的 , 且 它 
为 0 的 充分 必要 条 件 为 p= g。 在 两 个 分 布 p 和 g 之 间 的 假设 检验 中 , 相对 炉 就 是 误差 概率 的 指 
数 。 它 也 可 以 用 来 定义 概率 分 布 的 几何 结构 ,使 得 我 们 能 够 解释 大 偏差 理论 中 的 许多 结论 。 
信息 论 和 股票 市 场 的 投资 理论 有 许多 相似 之 处 。 可 将 股票 市 场 定义 为 一 个 随机 向 量 X, 其 分 
量 是 非 负 的 数值 ,等 于 某 只 股票 当天 的 收盘 价 与 当天 的 开盘 价 的 比值 。 若 股票 市 场 的 分 布 为 
F(x), 那么 我 们 定义 双 售 率 W 为 


W= max JlogbrxdF Go) (1-7) 
b: 5,220, $b, = 


双 倍 率 是 财富 增长 的 最 大 渐 近 指数 。 双 倍率 有 一 -系列 性 质 ESRARI AI ME 性 质 类 似 。 在 第 16 章 将 探 
讨 这 些 性 质 。 
H, I, C, D, K, W 这 些 量 自然 出 现在 以 下 领域 中 : 
。 数据 压缩 。 随 机 变量 的 炉 H 是 该 随机 变量 的 最 短 描述 平均 长 度 的 下 界 。 可 以 构造 一 个 平 
均 长 度 不 超出 米 1 比特 的 描述 。 如 果 放 宽 完全 恢复 信 源 信息 的 限制 , 那么 此 时 间 : 如 果 
不 计较 失真 D 的 话 , 需要 多 大 的 通信 速率 来 描述 信 源 ? 另外 , 需要 多 大 的 信道 容量 , 才 
能 让 信 源 信息 在 信道 上 充分 传输 , 并 且 在 失真 不 超过 D 的 情况 下 重 构 信 源 ? 这 是 率 失 真 
理论 的 研究 课题 。 

当 我 们 试图 对 非 随机 性 目标 的 最 短 描述 的 概念 进行 严格 定义 时 , PARRARI RERE K 的 
定义 就 应 运 而 生 了 。 在 后 面 , 我 们 将 证 明科 和 尔 莫 戈 罗 夫 复杂 度 的 普 适 性 并 且 满 足 最 短 描述 理论 
的 许多 直观 要 求 。 

。 数 据 传输 。 考 虑 信息 传输 问题 是 希望 接收 器 能 够 以 很 小 的 误差 概率 将 消息 译 码 。 从 本 质 

Lit, 我 们 希望 找到 的 码 字 ( 信 道 的 输入 字符 序列 ) 彼 此 之 间 离 得 足够 远 ,目的 是 当 它们 
在 信道 中 被 噪声 污染 后 依然 能 够 区 分 开 来 。 这 等 价 于 高 维 空间 中 的 填 球 问题 。 对 任何 码 
字 集 , 要 计算 出 接收 器 可 能 出 错 (换言之 , 将 传送 过 来 的 码 字 做 了 错误 的 判断 ) 的 概率 是 
可 以 办 到 的 。 然 而 , 在 绝 大 多 数 情形 下 , 这 种 计算 很 繁琐 。 

使 用 随机 生成 的 编码 方案 , 香农 证 明了 ,如 果 码 率 不 超过 信道 容量 C, 就 能 够 以 任意 小 的 误 
差 概 率 发 送信 息 。 随 机 生成 码 的 思想 非 同 寻常 , 为 简化 难 解 问题 打下 了 基础 。 香 农 在 该 证 明 过 
程 中 所 使 用 的 关键 思想 之 一 是 所 谓 的 典型 序列 概念 。 容 量 C 是 可 以 区 分 的 输入 信号 个 数 的 
对 数 。 

。 网 络 信息 理论 。 前 面 所 提 到 的 每 一 个 主题 涉及 的 均 是 单一 信 源 或 单一 信道 。 如 果 我 们 希 

望 压缩 众多 信 源 信息 中 的 每 一 个 , 然后 将 压缩 好 的 描述 放 在 一 起 进行 信 源 联合 重 构 , 情 
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况 将 如 何 ? 该 问题 由 Slepian- Wolf 定理 解决 。 如 果 和 希望 更 多 的 发 送 器 独立 地 对 一 个 公共 
接收 器 发 送信 息 , 情况 又 如 何 ? 该 信道 的 信道 容量 应 该 是 多 少 ? 这 样 的 信道 称 为 多 接 人 
信道 , 已 由 Liao 和 Ahlswede 给 予 了 解答 。 如 果 有 一 个 发 送 器 和 多 个 接收 器 ,同时 发 送 相 
同 或 不 相同 的 信息 给 每 个 接收 器 , 该 如 何 处 理 ? 这 样 的 信道 就 是 广播 信道 。 最 后 , 如 果 希 
望 在 存在 噪声 和 干扰 的 背景 下 , 任意 多 个 发 送 器 与 任意 多 个 接收 器 之 间 可 以 随意 互通 信 
息 , 又 该 如 何 处理 ? 从 各 发 送 器 到 各 接收 器 ,可 达 码 率 的 容量 区 域 是 什么 ? 这 是 一 般 网 
络 信息 论 中 的 问题 。 所 有 上 述 问题 都 可 以 归结 于 多 用 户 或 网 络 信息 论 这 个 一 般 化 的 领域 。 
虽然 要 获得 一 个 全 面 的 网 络 理论 超出 了 现 有 的 研究 水 平 , 但 我 们 仍然 希望 对 上 述 问题 的 
MARS ABR Efe BA SERIE. 

遍历 理论 。 渐 近 均 分 定理 表明 ,遍历 过 程 的 绝 大 多 数 长 度 为 n 的 样本 序列 的 概率 近似 为 
2°", 并 且 大 约 有 2 吧 个 是 这 样 的 典型 序列 。 

ARB. FAN DD 在 两 个 分 布 之 间 的 假设 检验 中 , 可 以 表征 误差 概率 的 指数 , CRA 
个 分 布 之 间距 高 的 自然 度量 。 

统计 力学 。 在 统计 力学 中 , BH 度量 一 个 物理 系统 的 不 确定 程度 或 混乱 程度 。 粗 略 地 
讲 , 炉 是 一 个 物理 系统 成 形 后 的 状态 数 的 对 数值 。 热 力学 第 二 定律 说 明 , 一 个 封闭 系统 
的 炉 永 不 减少 。 后 面 我 们 会 对 第 二 定律 做 出 一 定 的 解释 。 

量子 力学 。 在 量子 力学 中 , +S (von Neumann) i S= tr(olnpo) = Zhilog); 扮演 着 
HAE HE ~ BEAK 2K & ( Shannon-Boltzmann) #4 H = — 2 pilogp: 的 角色 。 由 此 获得 数据 压 
缩 和 信道 容量 的 量子 力学 形式 。 

推理 。 我 们 可 以 运用 科 尔 莫 戈 罗 夫 复 杂 度 K 的 概念 找到 数据 的 最 短 描述 , 也 可 以 将 它 作 
为 模型 预测 下 一 个 数据 是 什么 。 使 不 确定 度 或 炉 最 大 化 的 模型 可 导出 最 大 粹 推理 方法 。 
博弈 与 投资 。 财 富 增长 率 的 最 佳 指数 由 双 倍 率 W 决定 。 对 于 具有 均匀 收益 机 会 的 赛马 ， 
WHEW 与 箭 五 之 和 为 常数 。 而 双 倍 率 在 边 信息 作用 下 的 增 量 恰好 是 赛马 与 边 信息 之 
间 的 互信 息 1。 股票 市 场 中 的 投资 行为 也 有 类 似 的 结论 。 

概率 论 。 渐 近 均 分 性 (AEP) 证 明 绝 大 部 分 序列 是 典型 的 , CRA RET 五。 因此， 
我 们 可 以 把 注意 力 集中 在 大 约 2 到 个 典型 序列 上 。 在 大 偏差 理论 中 , 考虑 任何 一 个 由 分 
布 构 成 的 集合 ， 如 果真 实 分 布 到 这 个 集合 最 近 元 的 相对 粹 距离 为 D, 那么 它 的 概率 大 约 
为 2 加 。 

复杂 度 理论 。 科 尔 莫 蕊 罗 夫 复杂 度 K 是 对 象 的 描述 复杂 度 的 度量 。 它 与 计算 复杂 度 有 一 
定 的 关系 , 但 不 尽 相 同 , 因为 计算 复杂 度 度量 的 是 计算 所 需要 的 时 间或 空间 大 小 。 


信息 论 中 的 量 ( 例 如 粹 和 相对 炉 ) 解 决 了 通信 理论 和 统计 学 中 的 许多 基本 问题 而 频频 出 现在 
该 两 门 学 科 中 。 在 研究 这 些 问 题 之 前 , 我 们 将 先 研究 这 些 量 的 一 些 性 质 。 在 第 2 章 中 , 我 们 开始 
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第 2 章 H Swe Saem 


从 本 章 开 始 介绍 书 中 的 大 部 分 基本 定义 , 为 随后 理论 阐述 的 全 面 展开 作 个 铺垫 。 地 庸 置 疑 ， 
我 们 要 讨论 这 些 基本 概念 之 间 的 关系 及 其 相应 的 解释 , 因为 这 在 后 面 的 讨论 中 会 很 有 用 。 首 先 
SRS RRM, 然后 论述 链 式 法 则 、 互 信息 的 非 负 性 、 数 据 处 理 不 等 式 , 最 后 我 们 通过 
考察 充分 统计 量 和 费 诺 (Fano) 不 等 式 进一步 解释 说 明 这 些 定义 。 

信息 是 个 相当 宽泛 的 概念 , 很 难 用 一 个 简单 的 定义 将 其 完全 准确 地 把 握 。 然 而 , 对 于 任何 一 
个 概率 分 布 , AES ti (entropy HH, 它 具 有 许多 特性 符合 度量 信息 的 直观 要 求 。 这 
个 概念 可 以 推广 到 互信 息 (mutual information), 互信 息 是 一 种 测度 ,用 来 度量 一 个 随机 变量 包含 
另 一 个 随机 变量 的 信息 量 。 们 恰 好 变 成 一 个 随机 变量 的 自信 息 。 相 对 粹 (relative entropy) 是 个 更 
广泛 的 量 , 它 是 刻画 两 个 概率 分 布 之 间 的 距离 的 一 种 度量 , 而 互信 息 又 是 它 的 特殊 情形 。 以 上 所 
有 这 些 量 密切 相关 , 存在 许多 简单 的 共性 ,本 章 会 论述 其 中 的 一 些 性 质 。 

在 以 下 各 章 中 , 我 们 将 会 展现 这 些 量 是 如 何 自然 地 回答 有 关 通 信 、 统计 学 、 复 杂 度 和 博弈 方 
面 的 大 量 问题 的 ， 由 此 也 可 以 最 终 体现 这 些 定义 的 价值 。 


2.1 Ki 


BAAS, 它 是 随机 变量 不 确定 度 的 度量 。 设 X 是 一 个 离散 型 随机 变量 , 其 字母 
表 ( 即 概率 论 中 的 取 值 空间 ) 为 七 , 概率 密度 函数 p(z) = Pr(X= z),zE 沁 。 为 方便 起 见 ， 记 概率 
密度 函数 为 p(z) 以 代替 px(z), 由 此 ,p(z) 和 p(y) 指 两 个 不 同 的 随机 变量 , 实际 上 分 别 表示 两 
个 不 同 的 概率 密度 函数 py (x) Al py(y)。 

定义 “一 个 离散 型 随机 变量 X BORE X)E MH 

H(X) =- Dy 2(z)log p(x) (2-1) 

有 时 也 将 上 面 的 量 记 为 Hp) EPR log 所 用 的 底 是 2, HARA. W40, H 
掷 均匀 硬币 这 一 事件 的 焙 为 1 比特 。 由 于 当 x 一 0 时 , x log 20, 今后 我 们 约定 01log0=0, 因为 
加 上 零 概 率 的 项 不 改变 粹 的 值 。 

如 果 使 用 底 为 5 RR, NUE H(X) MIZUKA e 时 , 糖 的 单位 用 奢 特 (nat) 
表示 。 如 无 特别 声明 ， 一般 选 取 对 数 底 为 2, 因而 箭 的 量 纲 一 般 情 况 下 为 比特 。 注 意 , MRE 
是 随机 变量 X 的 分 布 的 泛 函 数 , 并 不 依赖 于 X 的 实际 取 值 , 而 仅 依赖 于 其 概率 分 布 。 

用 表示 数学 期 望 。 WE 久 ~p(x), 则 随机 变量 g(X) 的 期 望 值 可 记 为 


E,g(X) = >) g(x)p(z) (2-2) 
rEX 


或 者 当 概率 密度 函数 可 由 上 下 文 确定 时 ， 简 记 为 Eg(X)。 我 们 将 特别 关注 , 当 g(X) = log z 
时 ，g(X) 关 于 分 布 p(z) 的 怪异 的 自 指 涉 数 学 期 望 。 

注释 X 的 炉 又 解释 为 随机 变量 log 3 的 期 望 值 ,其 中 p(x) 是 X 的 概率 密度 函数 。 
于 是 
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H(X) = Elog 57535 (2-3) 


粹 的 这 个 定义 与 热力 学 中 的 炉 是 有 联系 的 , 在 后 面 我 们 会 阐述 其 中 的 某 些 联系 。 其 实 , 通过 
定义 随机 变量 的 箭 必须 满足 的 某 些 性 质 , 可 以 采用 公理 化 的 方法 获得 炉 的 定义 。 该 方法 放 在 习 
题 2.46 中 说 明 。 我 们 并 不 使 用 公理 化 方法 来 确立 灶 的 定义 ,相反 是 根据 许多 自然 问题 的 答案 而 
HARRELL, 如 “随机 变量 的 最 短 描述 的 平均 长 度 是 多 少 ”。 首 先 , 我 们 来 看 粹 这 个 定义 的 一 
些 直 接 结果 。 

引 理 2.1.1 H(X)20. 


、 1 

证 明 : 由 0<p(z)<1 知 lg( zE )>0。 m 
31 2.1.2 H;(X)=(loga)H,(X)o 

证 明 : 由 logsp = (loga )log,p 即 可 得 到 。 口 


粹 的 第 二 个 性 质 告 诉 我 们 可 以 改变 定义 中 对 数 的 底 。 只 要 冬 上 一 个 恰当 的 常数 因子 , Bsa 
以 从 一 个 底 变换 到 另 一 个 底 了 。 


例 2.1.1 设 
_ 11 概率 为 p 
X= lo 概率 为 1 一 (2-4) 
于 是 ef 
H(X) = — plogp— (1 - p)log(1- p= H(p) (2-5) 


特别 地 , 4 p= Lat, H(X)=1 Effo BR 电 (p) 的 图 形 见 图 2-1, EA WR — eA HER: 
H(p) APA HT HH, p= 0 或 1 时 ， 
H(p)=0. 这 很 有 意义 , 因为 当 p=0 或 1 
时 , 变量 不 再 是 随机 的 ， 从 而 不 具有 不 确定 
度 。 另外, 当 p= 方 时 , 变量 的 不 确定 度 达 到 
最 大 ,此 时 对 应 于 炳 也 取 最 大 值 。 








例 2.1.2 设 
a BERS 
1 . 
b RAG oo 1 02 03 04 05 06 07 08 09 | 
xX=4 i (2-6) P 

c 概率 为 8 图 2-1 H(p) 与 的 关系 曲线 
d 概率 为 十 

j X 为 

YX RS 1 1 dd loet aT 0.7) 
H(X)= 2 08 7 4 8 4 g Æg g og 8 4 5 





假定 利用 最 少 二 元 问题 数 的 方案 确定 变量 X 的 值 。 有 效 的 第 一 个 问题 是 “X= a 吗 ?” 此 问题 
分 担 了 一 半 的 概率 。 如 果 第 一 个 问题 的 回答 是 否定 的 , 则 第 二 个 问题 可 能 是 “X=& 吗 ?" 第 三 个 
问题 可 能 是 “X=c 吗 ?" 结 果 所 需 的 二 元 问题 数目 的 期 望 值 为 1.75。 可 以 证 明 , 这 是 为 确定 变量 
XX 的 值 所 需 的 二 元 问题 数 的 最 小 期 望 值 。 第 $ 章 将 证 明 , 为 确定 X 的 值 所 需 的 二 元 问题 数 的 最 
小 期 望 值 介 于 五 (X) 与 HH(X)+1 之 间 。 
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2.2 KGMSRA 


在 2.1 节 中 定义 了 单个 随机 变量 的 炉 。 现 在 , 将 定义 推广 到 两 个 随机 变量 的 情形 。 由 于 可 将 
(X,Y) 视 为 单个 向 量 值 随机 变量 , 所 以 定义 其 实 并 无 新 鲜 之 处 。 

定义 ”对 于 服从 联合 分 布 为 p(xz,y) 的 一 对 离散 随机 变量 (X,Y), RRO H(X, Y) (joint 
entropy) 定 义 为 


H(X,Y) =- >) >) p(z, y)logp(x,y) (2-8) 
rE NEY 
上 式 亦 可 表示 为 
H(X, Y)= — Elogp(X, Y) (2-9) 


4 AT LAGE L— PS BALE ES FE LE EAE, CRE KT RAE 
用 的 那个 随机 变量 取 平 均 之 后 的 期 望 值 。 
定义 ” 若 (X,Y) 一 p(x,y), %4 (conditional entropy)H(Y|X) 定 义 为 : 


H(YIX) = Dy p(s)H(YIX = x) | (2-10) 
=- 2y pla) 21 ply | x)logp(y | x) (2-11) 
-X3 ole, y)logp(ylz) (2-12) 

一 Elogp( Y |X) (2-13) 


Be HRA AE 自然 性 可 由 一 个 事实 得 到 体现 , CMs HIERE 
于 其 中 一 个 随机 变量 的 粹 加 上 另 一 个 随机 变量 的 条 件 炉 。 其 证 明 见 如 下 的 定理 。 
定理 2.2.1( 链 式 法 则 ) 





H(X,Y)=H(X)+ H(Y|X) (2-14) 
证 明 : 
H(X,Y) =- > 2 p(x, y)logp(z,y) (2-15) 
=- Sp p(x, y)logp(x) ply |x) (2-16) 
rE X yE 
=- D X ela, yMlogea) - DD) p(zyy)logp(ylz) (2-17) 
rEXyEY xr€ENyeY 
=- > p(xr)logp(z) — >) >) plzx,y)logp(ylz) (2-18) 
Ex EXyEY 
= H(X) + H(YIX) (2-19) 
等 价 地 记 为 : 
logp(X,Y)=logp(X)+logp( Y| X) (2-20) 
等 式 的 两 边 同时 取 数 学 期 望 , 即 得 本 定理 。 O 
推论 y~ 1 2 3 4 
H(X, Y|Z)=H(X|\Z)+H(Y!X,Z) 1 4 4 + 去 
(2-21) 5 i 1 1 1 
BA: 沿用 上 面 定理 的 证 明 思路 即 可 16 i » 32 
得 到 。 oO 3 16 16 16 16 
例 2.2.1 设 (X,Y) 服 从 如 下 的 联合 4 + 0 0 0 





分 布 : 


[76 | 
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X 的 边际 分 布 为 ( So ,去 ,二 ),Y 的 边际 分 布 为 ( 士 , 士 ,十 , 士 ), 因而 HCX)= 二 比特 ,H(Y)=2 
比特 。 而 且 


4 








H(X\Y) = 2 pY = i)H(X|Y = i) (2-22) 
adaa THES EE) 

+4u(4,4,4,4)+1H11,0,0,0) (2-23) 

=4xtsdxtstxrttxo (2-24) 

= 号 比特 (2-25) 


FIRE, HCYIX)="Bieae, 以 及 A(X, Y) =A etie 
注释 注意 H(Y|X)AH(X/Y), 但 H(X)-H(XIY)=H(Y)- H(Y|X), 稍 后 会 用 到 
这 个 性 质 。 


2.3 ANASH E 


MERLE RAAT EMRE; 它 也 是 平均 意义 上 描述 随机 变量 所 需 的 信息 量 的 度量 。 在 
本 节 中 介绍 两 个 相关 的 概念 : AA EB 

#85} Hi (relative entropy) 是 两 个 随机 分 布 之 间距 离 的 度量 。 在 统计 学 中 , 它 对 应 的 是 似 然 比 
AIAGA. XAR D(p l a) 度 量 当真 实 分 布 为 p 而 假定 分 布 为 g 时 的 无 效 性 。 例 如 ,已 知 随 
机 变量 的 真实 分 布 为 p, 可 以 构造 平均 描述 长 度 为 H(p) 的 码 。 但 是 , 如 果 使 用 针对 分 布 a 的 编 
码 , 那么 在 平均 意义 上 就 需要 H(p)+ D(p 上 9q) 比 特 来 描述 这 个 随机 变量 。 

定义 ”两 个 概率 密度 函数 为 p(x) 和 g(xz) 之 间 的 相对 炳 或 Kullback-Leibler 距离 定义 为 


D(pllq) = 3 Palo BE (2-26) 
IE 
= Elog 2X5 (2-27) 


在 上 述 定义 中 , 我 们 采用 约定 0 log 入 = 0, 约定 0log =0, plog $ = (基于 连续 性 )。 因 
此 , 车 存在 字符 x CATE p(x) >0,q(z)=0, WA DC ll ea)=oco。 

PUGET GUE RAR TAY, 而且, 当 且 仅 当 p= q 时 为 零 。 但 是 , HFHH 
对 称 , 也 不 满足 三 角 不 等 式 , 因此 它 实 际 上 并 非 两 个 分 布 之 间 的 真正 距离 。 然 而 , HARRE 
分 布 之 间 的 “距离 "往往 会 很 有 用 。 

现在 来 介绍 互信 息 (mutual information), 它 是 一 个 随机 变量 包含 另 一 个 随机 变量 信息 量 的 度 
量 。 互 信息 也 是 在 给 定 另 一 随机 变量 知识 的 条 件 下 , 原 随机 变量 不 确定 度 的 缩减 量 。 

定义 “考虑 两 个 随机 变量 X ALY, 它们 的 联合 概率 密度 函数 为 py), 其 边际 概率 密度 函 
数 分 别 是 p(z) 和 p(y)。 互 信息 I(X;Y) 为 联合 分 布 5(z,y) 和 乘积 分 布 p(z)p(y) 之 间 的 相对 
Wi, 即 : 


yj p(z,y) i 
(X: Y) = By) P(x,3)lo8 p(2) Py) (2-28) 
= D(p(z,y) Il plz) p(y) (2-29) 





Wy ATA Beh 11 





(X,Y) 


= Exe pHE (2-20) 


第 8 章 将 此 定义 推广 到 连续 型 随机 变量 的 情形 , 特别 是 式 (8-54) 适 用 于 随机 变量 ,它们 可 以 
是 离散 和 连续 随机 变量 的 混合 型 。 

例 2.3.1 设计 =10,1|, 考虑 庆 上 的 两 个 分 布 p 和 gq。 KH p(0)=1-7r, p(1)=r Rq(0)= 
1 一 s,g(1)=s, H 











D(plg)=(1 rylog = + rlog A (2-31) 
以 及 
D(q |l p)= 01- s)log E= + slog $ (2-32) 
如 果 r=s, WA Dp llg)=Dla ll p)=0. #r=1⁄2,s=1⁄4, 可 以 计算 得 到 
1 i 
D(p ll q) = Slog} + Flog 2 =1- Flog 3=0.2075 比特 (2-33) 
4 4 
而 
3 1 
D(q |l p)= Plog + Hog + = Flog 3 - 1 = 0.1887 比特 (2-34) 
2 2 
注意 , 一 般 D(p | gq) 关 D(g p) 。 
2.4 炮 与 互信 息 的 关系 
可 将 互信 息 T(X;Y) 重 新 写 为 : 
yN _pla,y) | 
I(X;Y) = Die(z.y)log DC py) . (2-35) 
_ ply) 
= Dipl, y)log plz) (2-36) 
=- Dp(lz,y)logp(z) + d)p(x,y)logp (xy) (2-37) 
=- >) p(x)logp(x) -| - SJp(a, y)logp(z ly) (2-38) 
= H(X) - H(x|Y) (2-39) 


由 此 , 互信 息 IX; 了) 是 在 给 定 Y 知识 的 条 件 下 X 的 不 确定 度 的 缩减 量 。 
对 称 地 , 亦 可 得 到 
1(X;Y)=H(Y)-HCY|X) (2-40) 
因而 , X 含有 YY 的 信息 量 等 同 于 Y 含有 X 的 信息 量 。 
由 2.2 节 的 HC(X,Y)=H(X)+ H(Y|X), 可 得 
I(X;Y)= H(X)+ H(Y)~ H(X,Y) (2-41) 
最 后 , 注意 到 
1(X;X)=H(X)- H(X|X)=H(X) (2-42) 
因此 , GOERS ASH AAMER. At, PPR 8 418 & (self-information), 就 是 
这 个 原因 。 
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综合 以 上 结论 , 有 下 面 的 定理 。 
EE 2.4.1( 212858) 


HX,Y) 
I(X;Y)=H(X)—- H(X|Y) (2-43) 
I(X;Y)=H(Y)-H(YİX) (2-44) 
I(X;Y)=H(X)+H(Y)-H(X,Y) (2-45) 
I(X;Y)=I(Y;X) (2-46) 
I(X;X)=H(X) (2-47) 


H(X),H(Y),H(X,Y),H(X|Y),HCY|X) mi 
I(X;Y) 之 间 的 关系 可 用 文 氏 图 (Venn diagram) #278 (W, 
2-2)。 可 注意 到 , 互信 息 I(X;Y 了 ) 对 应 于 X 的 信息 和 HO) HY) 
Y 的 信息 的 相交 部 分 。 
例 2.4.1 基于 例 2.2.1 的 联合 分 布 , 容易 计算 此 处 “图 2 2 SRR RXR 
的 互信 息 ICX;Y)=H(X)- H(X| Y)= HCY) - HCY| X) =0.375 比特 。 


2.5 i. ANS Se Se 


MEEHAN EER ETRA. 
定理 2.5.1 CR AJAA E N) 设 随机 变量 XI1，X2 Xn 服从 p(xi, zx2,*… ,xi)， 则 


HX X20) Ks) = DHOG NX aX) (2-48) 
证 明 : 重复 利用 两 个 随机 变量 情形 时 粹 的 展开 法 则 ,有 
H(X1, X2)= H(X1) + H(X)|X1) . (2-49) 
H(X,,X2,X3) = H(X,) + H(X2, Xs| X1) (2-50) 


= H(X,) + H(X,| X,) + H(X31 X2,X1) (2-51) 
H(Xi1, X2, Xa) = H(X,) + H(X, | X4) + + HOX, |X, X1) (2-52) 
= DI HOX, Xp X1) (2-5590 


另 一 证 明 : 由 p(z1,z2,…,z,) = [I pCa; lzi), 08 
H(X,,X2,°" . Xa ) 


一 一 2 Par “ *, TX )logp (zi, 223s Tn) (2-54) 
=- 之 planaz Xp Jog TT pCa lair 2) (2-55) 
=- 之 PEOTI e, £p Nog p(x; |aj-1,°77» 21) (2-56) 
=- $ 2 plezar sr)logp (a laiis) (2-57) 
=- D 2 Peta “+, Ti) logp (zi |xi_1,°"* +21) (2-58) 
= SH, |X;-17 ) (2-59) 0) 


下 面 定义 条 件 互信 息 ， 它 是 在 给 定 Z 时 由 于 Y 的 知识 而 引起 关于 X 的 不 确定 度 的 缩减 量 。 





W Fast 2 438. 13 








定义 ”随机 变量 X 和 Y 在 给 定 随机 变量 Z 时 的 条 件 互 信息 (conditional mutual information) 
义 为 


I(X;Y|Z)=H(X|Z)-H(X|Y,2) (2-60) 
_ p(X, Y|Z) 
~ p(x, y,z) 10g p(X|Z) p(¥1Z) (2-61) 
互信 息 亦 满足 链 式 法 则 。 
定理 2.5.2 (互信 息 的 链 式 法 则 ) | 
IX, Xo Xa Y) = DUG FY [Xia X20 X1) (2-62) 
iE AA: 
I(X,,X,° ws X,; Y) 
= _ FOX Xa,- -,X,) — H(XI, X,,…, X, |Y) (2-63) 
= D H(X; [Xia X1) - SHOX |XX Y) 
= SYK YIX X2 Xi) (2-64)0 
FRE MAHAR. 


定义 ”对 于 联合 概率 密度 函数 p(z,y) 和 q(z,y), 44485 38 (conditional relative entropy) 
D(plyla) ll e(ylz)) 定义 为 条 件 概 率 密度 函数 p(y|xz) 和 gq(y1x) 之 间 的 平均 相对 炉 , 其 中 取 
平均 是 关于 概率 密度 函数 p(xz) 而 言 的 。 更 确切 地 ， 


Dp lz) lg(ylz)) = Sola) Dele )log 242 (2-65) 
= Esz, y) log oy : x% (2-66) 


RIR IC SARAN, 因为 它 忽略 了 起 条 件 作用 的 随机 变量 的 分 布 p(x)。 然 而 , 一 
般 情况 下 , 可 以 根据 上 下 文理 解 。 

一 对 随机 变量 的 两 个 联合 分 布 之 间 的 相对 可 以 展开 为 相对 箭 和 条 件 相 对 灶 之 和 。 相 对 炉 
的 这 种 链 式 法 则 可 以 用 来 证 明 4.4 节 中 的 一 种 热力 学 第 二 定律 。 

定理 2.5.3( 相 对 炉 的 链 式 法 则 ) 


D(p(zx,y)l q(xz,y))=D(p(x) | q(x))+ D(p(y|z) | g(yl|z)) (2-67) 
证 了 朋 : 
D(p(z,y) | q(x,y)) 
_ plasy) 
= D px)log y) (2-68) 
加 p(x) p(ylax) i 
= 之 Dip(z,y)log alaalia) (2-69) 
= D Dlx. slow BE) + D Daey 22 (2-70) 
= = D(plz) | @(x)) + D lax) ll qty! x)) (2-71) 口 


2.6 Jensen 不 等 式 及 其 结果 


在 本 节 中 证 明 前 面 所 定义 的 量 的 一 些 简单 性 质 。 从 凸 函 数 的 性 质 开 始 讨 论 。 
定义 若 对 于 任意 的 x1,z2E (a,5) 及 OKAS, 满足 





[25] 
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(CAzi+(L-A)z)<AFGzi)+(1L-AX)ACz2) (2-72) 
则 称 函 数 F(z) 在 区 间 (c ,2) 上 是 西 的 (convex)。 如 果 仅 当 和 =0 或 和 =1， 上 式 成 立 ， 则 称 函 数 f 
FE F H h Kg (strictly convex)。 

EX 如果- FALRA, 则 称 函 数 是 钙 的 。 如 果 函 数 总 是 位 于 任何 一 条 弱 的 下 面 , 则 该 
函数 是 凸 的 ; 如 果 函 数 总 是 位 于 任何 一 条 弦 的 上 面 , 则 该 函数 是 凹 的 。 

凸 函 数 的 例子 有 x7, lele, clogr(220) SS. MR RAT EE logx Vx (r>0). Æ 2-3 
HA TILT BRAM BRAS. TERR HR az + b 既是 西 的 也 是 目的。 吓 性 已 成 为 
讨论 许多 信息 理论 量 ( 例 如 箭 与 互信 息 ) 的 基本 性 质 的 基础 。 在 证 明 这 些 性 质 之 前 , 先 来 看 凸 函 
数 的 几 个 简单 结果 。 


LZ 一 一 


a) AR b) UK% 
图 2-3 ARAARA T 


定理 2.6.1 PRK 了 在 某 个 区 间 上 存在 非 负 ( 正 ) 的 二 阶 导 数 , 则 f A A E h BHR 
(Fih BK). 
证 明 : 利用 函数 /在 zo 点 的 泰勒 级 数 展开 : 


Flax) = fla) + f (ae) (ae ~ 29) + FE? (2 zo) (2-73) 


其 中 x* 位 于 r 与 z 之 间 。 根据 假设 , f (c*)>0, 因此 , 对 任意 的 z, 最 后 一 项 总 是 非 
负 的 。 
设 xo=Az1i+ (1 一 4)zz, 取 工 =zi， 可 得 
f(a) flay) + f (ap) (A - 4)(zr1- x2)) (2-74) 





类 似 地 , 取 x = zi, 可 得 
fay) >fl ro) + f (xo) (Al a2 z1)) (2-75) 
Hest (2-74) PDO a, 30 (2-75) Fe 1-1, 再 相 加 , 可 得 式 (2-72)。 对 于 严格 凸 性 , 同 理 可 证 。 O 
利用 定理 2.6.1 可 以 立即 判定 r,e ,zlogz(z 疡 0) 都 是 严格 凸 函 数 ， 而 logz Alva (BP x 之 
0) Ay es R. 
着 用 表示 数学 期 望 , 则 EX = J) p(z)z 表示 离散 情形 时 的 期 望 ,而 EX = [ap(x)de # 
示 连 续 情形 时 的 期 望 。 
下 面 的 不 等 式 是 数学 领域 中 最 为 广泛 应 用 的 一 个 , 也 是 信息 论 中 众多 基本 结论 的 基础 。 
定理 2.6.2 (Jensen 不 等 式 ) ”车 给 定西 函数 上 和 一 个 随机 变量 X, A 
Ef( X)2fCEX) (2-76) 
进一步 ， 若 上 是 严格 西 的 ,那么 式 (2-76) 中 的 等 式 蕴含 X= EX HREA I XRT 
常量 )。 
证 明 : 我 们 只 证 明 离散 分 布 情形 , 且 对 分 布点 的 个 数 进 行 归纳 证 明 。 当 f 为 严格 凸 函 数 时 ， 
等 号 成 立 条 件 的 证 明 留 给 读者 。 
对 于 两 点 分 布 , 不 等 式 变 为 
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Pif (21) + paf (x2) f( pix t p2z2) (2-77) 
Ho eo eM eS, BREMSATA k-11, 定理 成 立 , 此 时 记 pi = p;/(1 
Ped i =1,2,°,k -1), 则 有 








>) f(a) = pfl) + (1 - Px) D Pia) (2-78) 
之 Def (ay) + a- m| Soin (2-79) 
> | me C- a) 2 pia (2-80) 
其 中 第 一 个 不 等 式 由 归纳 假设 得 到 , 第 二 个 不 等 式 由 凸 性 的 定义 可 得 。 
通过 对 连续 性 的 讨论 , 该 证 明 可 推广 到 连续 分 布 情形 。 口 


接 下 来 , 利用 这 些 结果 证 明 炉 与 相对 粹 的 一 些 性 质 。 下 面 的 定理 是 极其 重要 的 。 
定理 2.6.3 (信息 不 等 式 ) 设 p(zx),q(zx)(zE 守 ) 为 两 个 概率 密度 函数 ， 则 
D(p | q)20 (2-82) 
当 且 仅 当 对 任意 的 XxX,p(X)= q(x), 等 号 成 立 。 
证 明 ; 设 A=|zx:p(z)>0} 为 p(x) MER, 则 


_ pla) 
- Dp lg) =~ Zp(z)og gery (2-83) 
_ q(x) 
= 2p (2)log p(x) (2-84) 
< log 2, p(2) ne) (2-85) 
= oe glz) (2-86) 
<log >) g(x) (2-87) 
EX 
= log1 (2-88) 
=0 (2-89) 


其 中 式 (2-85) 由 Jensen 不 等 式 得 到 。 由 于 logt 是 关于 + 的 严格 凸 函数 ， 当 且 仅 当 g(z)/p(zx) 重 
为 常量 [ 即 对 任意 的 zx, 有 p(x)= ql) RA], 式 (2-85) 中 的 等 号 成 立 。 于 是 ， 2a(z) = 


cdip(2) = = c。 另 外 , RAY Zale) = > q(x) = 15}, 式 (2- 87) 中 的 等 号 才 成 立 ， 这 表明 





cele 因此 ， 当 上 且 仅 当 对 任意 的 z， 有 p(2) a(z), D(pl gq)=0。 口 
推论 (互信 息 的 非 负 性 ) 对 任意 两 个 随机 变量 X 和 了 ， 
1(X; Y)>0 (2-90) 


当 且 仅 当 X 与 了 相互 独立 ， 等 号 成 立 。 
证 明 : I(X;Y)=D(p(z,y) ll p(x) p(y)) 20, 4AM pl(z,y) = p(x) p(y) (HX SY 
为 相互 独立 ), 等 号 成 立 。 口 
推论 
D(p(y|lz) | gq(y|zx))>0 (2-91) 
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当 且 仅 当 对 任意 的 y 以 及 满足 p(x)>0 的 zx, 有 ply|lx)=g(y|x), 等 号 成 立 。 

推论 

1(X;Y|Z)20 (2-92) 

当 且 仅 当 对 给 定 随机 变量 Z, XY 是 条 件 独立 的 ,等 号 成 立 。 

下 面 证 明 字 母 表 计 上 的 均匀 分 布 是 区 上 的 最 大 信 分 布 。 由 此 可 知 , XERE LE E A 
都 不 超过 logit] 

定理 2.6.4 五 (X) 攻 log| 计 | ,其 中 | 姜 | 表 示 和 的 字母 表 洗 中 元 素 的 个 数 ， 当 且 仅 当 XRAY 
上 的 均匀 分 布 , 等 号 成 立 。 


证 明 : 设 u(x) = Tap NA EA SY A BE EA, p(z) 是 随机 变量 X 的 概率 密度 函 
数 。 于 是 


De |l u)= Si p(a)log 262} = log 4 - H(X) (2-93) 
Am ee At A KEHE, 
0<D(p || u) =log|¥| - H(X) (2-940 
定理 2.6.5( 条 件 作用 使 精 减 小 )( 信 息 不 会 有 负面 影响 ) 
H(X| Y)<H(X) (2-95) 
SRRHX 与 了 相互 独立 ， 等 号 成 立 。 
证 明 : OXI(X; Y)=H(X)-H(X1Y) 口 


从 直观 上 讲 , 此 定理 说 明知 道 另 一 随机 变量 Y 的 信息 只 会 降低 X 的 不 确定 度 。 注 意 , RM 
对 平均 意义 成 立 。 具 体 来 说 , H(XIY= y) 可 能 比 H(X) 大 或 者 小 , 或 两 者 相等 , 但 在 平均 意义 


E, H(XIY) = p(y)H(XIY = y) < H(X). Bn, 在 法 庭 上 , 特定 的 新 证 据 可 能 会 增加 不 


确定 度 , 但 在 通常 情况 下 , 证 据 是 降低 不 确定 度 的 。 
例 2.6.1 设 (X,Y) 服 从 如 右 图 的 联合 分 布 : 








Y 1 2 
WW H(X)=H(+,2) = 0.544 比特 ,HOCXIY=1D=0 比 特 | 1 0 3 
H(XIY=2)=1 比特 。 计 算 可 得 H(XIY)= 计 HC(XIY=D)+ | 2 | 二 4 





tax] Y=2)=0.25 比特 。 因 此 ， 当 观察 到 Y=2 时, X 的 不 


确定 度 增 加 ; 而 观察 到 Y=1 时 , X 的 不 确定 度 降低 了 , 但 是 在 平均 意义 下 X 的 不 确定 度 是 减 
少 的 。 
定理 2.6.6 (Wi) 设 X,,X2,°°°, Xan ARMA p(21,229° + tn)> 则 


H(Xi1, X2,%, Xi) < D H(X;) (2-96) 
i=l 


当 且 仅 当 X; 相互 独立 , 等 号 成 立 。 
TERA: BAER, 


H(X1,X05°X_) = D H(X: |XX) (2-97) 
i=l 


< SIH(X,) (2-98) 


其 中 的 不 等 式 直接 可 由 定理 2.6.5 得 到 。 当 目 仅 当 对 所 有 的 i, Xi; 与 X;-1,…,X1 独立 ( 即 当 且 仅 
当 X; 相互 独立 ), 等 号 成 立 。 口 
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2.7 ”对 数 和 不 等 式 及 其 应 用 


现在 证 明 关于 对 数 函 数目 性 的 简单 结果 , 它 可 应 用 于 箭 的 一 些 凹 性 结论 的 证 明 。 

定理 2.7.1 (对 数 和 不 等 式 ) 对 于 非 负数 GQ1 239" "an febi, bo, bys 
n a: n Ya 
Di ailog yi >| D7 a; | log “St (2-99) 
i=t i i=1 b; 





i=l 


当 且 仅 当下 一 常数 ， 等 号 成 立 。 
我 们 再 次 约定 0log0=0,alog 名 = co( 当 a>0),0log 和 = 0。 这 些 基于 连续 性 很 容易 证 明 。 


证 明 : 不 失 一 般 性 , 假定 a;>0,6b;>0。 由 于 对 任意 的 正 数 1 Ai f(t) = loge>0, 可 知 函 数 
f(t) = tlogt 严格 凸 。 因 而 ,由 Jensen 不 等 式 , 有 








TOE (2-100) 
EH a S0, Na; = Leh as = 4 = Gi, A 
i b; 1 Å 
a; Qi~ y Gi y_ Gi 
这 就 是 对 数 和 不 等 式 。 口 


利用 对 数 和 不 等 式 可 以 证 明 许 多 凸 性 结果 。 首 先 从 重新 证 明定 理 2.6.3 开始 , 该 定理 表明 
D(p ll a)>0, 当 且 仅 当 p(xz)= gq(z), 等 号 成 立 。 由 对 数 和 不 等 式 ， 


D(p | a) -Dp(z)log EEZ (2-102) 
(Sd p(x)) log p(x)/Xaq(x) (2-103) 
=1 log +=0 (2-104) 


ERAPR- <， 等 号 成 立 。 由 于 p 和 4 均 是 概率 密度 函数 , 则 c= 1 ,因而 有 DC Il 9) 一 0， 
当 且 仅 当 对 任意 的 zx,p(z)= g(z)。 
定理 2.7.2 (相对 炳 的 西 性 ) D(p 上 gq) 关于 对 (p,q) 是 凸 的 , P, 如 果 (p1,91) 和 (pp,92) 为 
两 对 概率 密度 函数 ， 则 对 所 有 的 0 委 ) 委 1, 有 
D(Ap, + (1- A) po Il àgi + 1 — a) ga) <aD (Ay || gq) + 1-2) DC h2 ll q2) (2-105) 
证 明 : 将 对 数 和 不 等 式 应 用 于 公式 (2-105) 左 边 的 每 一 项 : 


1— 
(Api(x) + (1—24)p2(x))log apita) - 4 = wes 








<Apy (slog PU + (1a) pat)log GFE) (2-106) 
对 上 述 所 有 的 2 RA, 得 到 所 要 的 性 质 。 D 


定理 2.7.3 (WA) HIPJÆXŤ p HU BR, 
WRA: 


[30] 


T] 
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H(p) =log|4| - D(p | u) (2-107) 
其 中 u 为 | 区 | 个 结果 的 均匀 分 布 。 从 而 HOMES AD 的 凸 性 直接 得 到 。 口 
另 一 证 明 : BX, 是 取 值 于 集合 A, 分 布 为 p 的 随机 变量 ,Xs 是 取 值 于 相同 集合 且 分 布 为 
pz 的 另 一 随机 变量 。 设 
1 概率 为 4 


o=}; 概率 为 1_》 (2-108) 
B Z=X,, 则 2Z 的 分 布 为 4p1+ (1 一 4)p，。 此 时 , APACER), A 
H(Z)>H(Z18) (2-109) 
或 等 价 地 ， 
H(Ap, + (1—A) p2) = aH(p;) + (1- A) H(p2) (2-110) 
FREST SHEATH RN, 它 具 有 的 四 性 。 口 


炳 的 凹 性 的 推论 之 一 是 : RAHA HARA RSS, eK. 
定理 2.7.4 R(X, Y)~plz,y)=plz)plylz). RAZ plylz), 则 互信 息 I(X;Y 了 ) 是 
KF plc) HU BK; 而 如 果 固 定 p(x), MARR T(X;iY) 是 关于 plylz) HS BK. 
证 明 : 为 了 证 明 第 一 部 分 , 将 互信 息 展 开 
I(X;Y) = H(Y) - H(Y|X) = H(Y) - Dp(x)H(YIX = x) (2-111) 


如 果 固 定 p(y|x), W p(y) 是 关于 p(x) 的 线性 函数 。 因而 ,关于 p(y) 的 四 函数 HY) BE 
POKRA. ERPE 2 项 是 关于 p(z) 的 线性 函数 。 因 此 , 它们 的 差 仍 是 关于 plo) HH 
函数 。 

为 证 明 第 二 部 分 , 先 固定 p(x), 并 考虑 两 个 不 同 的 条 件 分 布 p(y|xz) 和 加 (y|z)。 相 应 的 
联合 分 布 分 别 为 p(x,y)=p(zx)pi(y|x) 和 ps(x,y)= plr) lr), 且 各 自 的 边际 分 布 是 
p(x),pi(y) 和 p(xz),p2(y)。 考 虑 条 件 分 布 

p(ylz)=Api(ylzx)+(1~A)p2(ylz) (2-112) 
ECE pOlr) M p(y|z) 的 组 合 , 其 中 0<1 委 1。 相 应 的 联合 分 布 亦 是 对 应 的 两 个 联合 分 布 的 组 
a 


和 


P(x,y)=Api(z,y) + (1— 4)pa(r,y) (2-113) 
Y 的 分 布 也 是 一 个 组 合 ， 
p(y)=Api(y)+ (1— A) poly) (2-114) 
Aut, MRR qi(z,y) = p(xz)pi(y) 为 边际 分 布 的 乘积 , WA l 
qi(x,y)=Ag1(z,y)+ (1~A)g(r,y) (2-115) 
由 于 互信 息 是 联合 分 布 和 边际 分 布 乘积 的 相对 焙 ,， 有 
I(X;Y) =D(p(2,y) | g(x,y)) (2-116) 


HART D(p || gq) 为 关于 二 元 对 (p,q) 的 凸 函 数 , 由 此 可 知 , 互信 息 是 条 件 分 布 的 凸 函数 。 口 
2.8 数据 处 理 不 等 式 


数据 处 理 不 等 式 可 以 说 明 , 不 存在 对 数据 的 优良 操作 能 使 从 数据 中 所 获得 的 推理 得 到 改善 。 

定义 ”如 果 Z 的 条 件 分 布 仅 依赖 于 Y 的 分 布 , 而 与 X 是 条 件 独 立 的 , 则 称 随 机 变量 X,Y, 

乙 依 序 构 成 马尔 可 夫 (Markov) 链 ( 记 为 X>Y>Z). AA, 若 X,Y,Z 的 联合 概率 密度 函数 可 
写 为 

p(x,y,2)= pla) plylz)plely) (2-117) 
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则 X,Y, Z 构成 马尔 可 夫 链 X 一 Y>Z。 


一 些 简单 结果 如 下 ， 
“XY>Z， 当 且 仅 当 在 给 定时 ,， X 与 Z 是 条 件 独 立 的 。 马 尔 可 夫 性 蕴含 条 件 独立 性 是 
因为 
plzs213)= PEE = LE plzly)p(zly) 2-118) 


马尔 可 夫 链 的 这 个 特性 可 以 推广 到 定义 n 维 随机 过 程 的 马尔 可 夫 场 , 它 的 马尔 可 夫 性 
A: 当 给 定 边界 值 时 ， 内 部 和 外 部 相互 独立 。 
° X>Y>ZHAAZ-Y>xX. Alt, AHAIA Xe> Yez, 
° &Z=f(Y), MW X>Y>Z. 
现在 来 证 明 一 个 重要 而 有 用 的 定理 , 表明 不 存在 对 Y 进行 确定 性 或 随机 性 的 处 理 过 程 , 使 
得 Y 包含 X 的 信息 量 增加 。 
定理 2.8.1 (数据 处 理 不 等 式 ) # X> Y>Z, 则 有 了 I(X;Y) 宇 I(X;2Z)。 
证 明 : 由 链 式 法 则 , 将 互信 息 以 两 种 不 同方 式 展开 : 
I(X;Y,2)=I(X;Z)+ I(X; Y|Z) (2-119) 
=I(X;Y)+I(X;Z| Y) (2-120) 
由 于 在 给 定 Y 的 情况 下 , X 与 Z 是 条 件 独 立 的 , 因此 有 I(X;ZlY)=0, XAF IX; YIZ)S> 
0, 则 有 


1(X; Y)21(X;Z) (2-121) 

当 且 仅 当 TI(X;Y1Z)=0( 即 X>Z—> Y 构成 马尔 可 夫 链 ), 等 号 成 立 。 类 似 地 ,可 以 证 明 I(Y; 

Z)21(X3Z)o 口 
推论 特别 地 , WR Z=g(Y), 则 I(X;Y) 之 I(X;g(Y))。 

WEAR: X->Y->g(Y) 构 成 马尔 可 夫 链 。 口 


这 说 明 数 据 Y 的 函数 不 会 增加 关于 X 的 信息 量 。 

推论 wR X>Y—-Z, 则 T(X;IYIZ) 委 ICXIY)。 

证 明 : 由 式 (2-119) 和 式 (2-120) 及 利用 TI(X;Z1Y) =0( 由 马尔 可 夫 性 )，I(X;Z) 之 0, 我 
们 有 

1(X;Y|Z)<I(X;Y) (2-122) 

于 是 ,通过 观察 “ 顺 流 ”的 随机 变量 Z, 可 以 看 到 X SY 的 依赖 程度 会 有 所 降低 (或 保持 不 
变 )。 注 意 , 4 X,Y,Z 不 构成 马尔 可 夫 链 时 , 有 可 能 I(X;Y12Z)>I(X;Y)。 例 如 , 设 X, 了 是 
相互 独立 的 二 元 随机 变量 , Z=X+Y, W I(X;Y)=0, 但 1(X;Y|Z)=H(X|Z)- H(X1Y,Z) = 


H(X|Z) = P(Z=1)H(X|Z=1)=5 tee 


2.9 充分 统计 量 


本 节 间 接地 说 明 利用 数据 处 理 不 等 式 可 以 很 好 地 阐明 统计 学 中 的 一 个 重要 思想 。 假 定 有 一 
族 以 参数 9 指示 的 概率 密度 函数 | f(x)|, RX 是 从 其 中 一 个 分 布 抽取 的 样本 。 设 T(X) 为 任意 
一 个 统计 量 (样本 的 函数 ), 如 样本 均值 或 样本 方差 , 那么 9 一 X 一 T(X), 且 由 数据 处 理 不 等 式 ， 
对 于 6 的 任何 分 布 , 有 

1(6;T(X))<1(9;X) (2-123) 
然而 , 若 等 号 威 立 , 则 表明 无 信息 损失 。 





[35] 


[36] 
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如 果 T(X) 包 含 了 X 所 含 的 关于 6 的 全 部 信息 , 则 称 该 统计 量 T(X) 关 于 9 是 充分 的 。 
定义 ”如 果 对 6 的 任何 分 布 , 在 给 定 T(X) 的 情况 下 ,X 独立 于 0( 即 9 一 T(X) 一 XX 构成 马 
IR KE), MRA T(X) 是 关于 分 布 族 | f(z)} 的 充分 统计 量 (sufficient statistic) o 
这 个 定义 等 价 于 数据 处 理 不 等 式 中 等 号 成 立 的 条 件 , 即 对 9 的 任意 分 布 , 有 
1(6;X)=1(6;T(X)) (2-124) 
因此 充分 统计 量 保持 互信 息 不 变 , 反之 亦 然 。 
以 下 是 有 关 充分 统计 量 的 几 个 例子 : 
1. 设 Xi, X2 X, 是 抛掷 硬币 过 程 所 产生 的 独立 同 分 布 (i.i.d.) 序 列 , 其 中 XE 10,1}, 参 
数 9=Pr(X;=1) 未 知 。 若 给 定 n, 则 序列 中 出 现 1 的 个 数 是 关于 9 的 一 个 充分 统计 量 ， 


M TOX XX.) = LEX, 。 事 实 上 ,可 以 证 明 在 给 定 了 的 情况 下 , 所 有 出 现 相同 数 
E 1 的 序列 都 是 等 可 能 的 , 且 独 立 于 参数 9。 具 体 讲 ， 





Pe Ofn Nar) = (zaza, z) Xx = a} 
1 RET =k 
n 
= (>) (2-125) 
0 ”其 他 
所 以 9 二 X>(X1,X;，,…,X,) 构 成 马尔 可 夫 链 ,本 是 关于 6 的 充分 统计 量 。 
接 下 来 的 两 个 例子 虽然 涉及 的 是 连续 情形 而 不 再 是 离散 情形 下 的 概率 密度 函数 , 但 该 理 
论 仍 能 应 用 。 连 续 型 随机 变量 的 箭 与 互信 息 的 定义 在 第 8 章 。 
2. 如 果 X 服从 均值 为 6, 方差 为 1 的 正 态 分 布 , BI, 如 果 


jz)= Fore P= NI) ”(2-126) 
TT 





E Xi Xs,…, X, 相互 独立 地 服从 该 分 布 ， 那 么 样本 均值 各 = LDX 为 关于 0 的 充分 


统计 量 。 可 以 验证 , 在 给 定 X, Mn 的 条 件 下 ， Xi ,XX。,… ,X 的 条 件 分 布 不 依赖 于 0。 
3. 如 果 万 = Uniform(0,0+1), 那么 关于 6 的 充分 统计 量 是 
T(X1, X25, Xn) 
= (max{ X1, X2, , Xp} min{ X1, X23 X,}) (2-127) 
这 个 证 明 比 较 复杂 , 但 再 次 表明 在 统计 量 本 给 定 的 情况 下 数据 的 分 布 独立 于 参数 。 
如 果 一 个 充分 统计 量 是 其 他 所 有 充分 统计 量 的 函数 , 则 称 该 统计 量 为 最 小 充分 统计 量 。 
定义 “如果 统 计量 T(X) 为 其 他 任何 充分 统计 量 U 的 函数 , 则 称 TT(X) 是 关于 1fo(z)1 的 最 
小 充分 统计 量 (minimal sufficient statistic)。 通 过 数据 处 理 不 等 式 解释 ,此 定义 蕴含 
b>T(X)—>U(X)—>X (2-128) 
因而 ,最 小 充分 统计 量 最 大 程度 地 压缩 了 样本 中 关于 9 的 信息 , 而 其 他 充分 统计 量 可 能 会 合 
有 额外 的 不 相关 信息 。 例 如 , 对 于 均值 为 9 的 一 个 正 态 分 布 , 取 奇 数 样本 的 均值 和 取 偶 数 样本 的 
均值 所 构成 的 函数 对 是 一 个 充分 统计 量 , 但 不 是 最 小 充分 统计 量 。 而 前 面 所 述 例子 中 的 充分 统 
计量 都 是 最 小 的 。 


2.10 费 诺 不 等 式 
假定 知道 随机 变量 Y, 想 进 一 步 推测 与 之 相关 的 随机 变量 X 的 值 。 费 诺 不 等 式 将 推测 随机 
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变量 X 的 误差 概率 与 它 的 条 件 米 昌 (X|Y) 联 系 在 一 起 。 在 第 7 章 的 香农 信道 容量 定理 的 逆 定 理 
证 明 过 程 中 , 费 诺 不 等 式 起 了 至 关 重要 的 作用 。 从 习题 2.5 中 可 以 知道 , 给 定 另 一 个 随机 变量 
Y, 随机 变量 X MAA O 当 且 仅 当 X 是 Y 的 函数 。 因 而 ,可 以 通过 Y 估计 XX, 其 误差 概率 为 
0 HEHA H(X|Y)=0. 

推 而 广 之 , RREAK X| Y) 较 小 时 ,能 以 较 低 的 误差 概率 估计 X。 费 诺 不 等 
式 正好 量化 了 这 个 想法 。 假 定 要 估计 随机 变量 X 具有 分 布 p(x)。 我 们 观察 与 X 相关 的 随机 变 
BY, 相应 的 条 件 分 布 为 polr), 通过 Y HARAR Y)=X, HR AUX 的 估计 , BER 


间 为 六 。 我 们 并 不 要 求 寺 与 必须 相同 , 也 允许 函数 g(Y) 是 随机 的 。 对 RAX 的 概率 作 一 个 界 。 
注意 到 X> YX 构成 马尔 可 夫 链 。 定 义 误差 概率 为 


P,=PriX#X} (2-129) 
定理 2.10.1( 费 诺 不 等 式 ) 对 任何 满足 XS YR OH ER, HP,=Pri XAR, 有 
H(P,) + P,log|¥ | =H(X|X)2H(X|Y) ” (2-130) 
上 述 不 等 式 可 以 减弱 为 
1+ P,log|¥|==H(X|Y) (2-131) 
或 
p>HXIY)-1! (2-132) 
e log| ¥ | 


注释 ”明显 地 , 由 式 (2-130) 可 知 ，P.=0 可 推出 H(X| Y)=0. 
证 明 : 先 不 考虑 Y, 证 明 式 (2-130) 中 的 第 一 个 不 等 式 , 然后 利用 数据 处 理 不 等 式 证 明 费 诺 
不 等 式 的 更 为 经 典 的 形式 , 即 式 (2-130) 中 的 第 二 个 不 等 式 。 定 义 一 个 误差 随机 变量 ， 





_ {1 WR XAX 5 
lo WẸ X =x (2-133) 
HARRERAN 互 (下 ,X| 驻 ) 以 两 种 不 同方 式 展开 , 有 
H(E,X|X)=H(X|X)+ H(E|X,X) (2-134) 
ed 
= H(E|X)+ H(X|E,X) (2-135) 
<H(P,) <P lgl Xi 


FEVER), 可 知 H(E|X)<H(E)=H(P,). KA E BX AX HBR, 所 以 ， 
Seb H(E|X,Y)S$-F O0. MAW E ARES, 故 H(E)=H(P,). PMR H(X] 
E,X)WWREME: 

H(X|E,X)=Pr(E=0)H(X|X,E=0)+Pr(E=1)H(X|X,E=1) 
<(1- P,)0+ P,log|¥ | (2-136) 
上 述 不 等 式 成 立 是 因为 当下 =0 时 , X-X; 4E=1H, RAM LAD X 的 可 能 取 值 数目 的 
对 数值 。 综 合 这 些 结果 , 可 得 
H(P,) + P,log| ¥ | ==H(X|X) (2-137) 
因为 XY 构成 马尔 可 夫 链 , BADEN SRT CX; X)<I(X; Y), 从 而 H(X|X)S 
H(X|Y)。 于 是 ,有 


H(P,) + P,log|¥|=>H(X|X)2H(X|Y) (2-1383)0 
推论 ”对 任意 两 个 随机 变量 X 和 YY, KR p=Pr( XY), 
H(p) + plog|¥|2H(X|Y) > (2-139) 


证 明 : 只 需 在 费 诺 不 等 式 中 令 X= Y 即 可 。 o 
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对 两 个 任意 的 随机 变量 X AY, 如 果 估 计量 g(Y) 在 集合 七 中 取 值 , 那么 可 以 在 不 等 式 中 将 
log| 计 | 替换 为 log( |X| -1), 从 而 获得 较 强 的 结果 。 
推论 ” 设 P,=Pr(XAX), X:Y>xX, 8 
H(P,) + P,log(|¥| -1)2H(X1Y) (2-140) 
证 明 : 该 定理 的 证 明 过 程 除 下 面 的 式 子 外 都 没有 变化 
H(X|E,X)=Pr(E=0)H(X|X,E=0)+Pr(E=1)H(X|X,E=1) (2-141) 


<(1-P,)0+ Plog(|4¥!-1) (2-142) 
其 中 , FERRERA E-ONM, X=X; 4YE=1i, X 的 可 能 取 值 个 数 为 | 二 | -1, 因而 条 
FREAR A logi =- 1) ， 即 可 能 取 值 数 目的 对 数值 。 由 此 获得 一 个 加 强 的 不 等 式 。 口 


注释 ”假定 没有 任何 关于 Y 的 知识 , 只 能 在 毫 无 信息 的 情况 下 对 X 进行 推测 。 设 XE 11， 
2ye m| E py poe E pm, WE X 的 最 佳 估计 是 六 =1,， 而 此 时 产生 的 误差 概率 为 P,= 1 - 
力 。 费 诺 不 等 式 变 为 

H(P,) + Pog(m -1)>H(X) (2-143) 
且 概 率 密度 函数 





(Pis Pass Pm) = (1 P, oe eed 
可 以 达到 等 号 成 立 的 界 。 因 此 ， 费 诺 不 等 式 是 精确 的 。 

最 后 介绍 一 个 体现 误差 概率 与 粹 之 间 关 系 的 新 不 等 式 。 设 X 和 X 为 两 个 独立 同 分 布 的 随机 
变量 , AIA HX), BBA X= X’ 的 概率 为 


(2-144) 


Pr(X = X’) = >)p?(z) (2-145) 
由 此 得 到 如 下 的 不 等 式 : 
引 理 2.10.1 wR X WX 独立 同 分 布 , LAW H(X), A 
Pr( X = X) 278%) (2-146) 


当 且 仅 当 和 服从 均匀 分 布 ， 等 号 成 立 。 
WA: (RE X~ p(x). H Jensen FSX, 可 得 


QE kep(X).< perl) (2-147) 
含义 是 
2 HOO = 22 Peer)! p(x) 2 = 3 p*(x) (2-148) 
推论 GR X Fe X MAMA, HX~ p(x), X 一 r(xX),X,X EX, 那么 
Pr(X = X’)>27 H(p)- Dip lr) (2-149) 
P(X = X’)>27 H(r)- D(r | p) (2-150) 
证 明 : 我 们 有 . 
2- HOP- DU lr) = 2S pz bge(2) + Dp (aloe EE (2-151) 
= 22 alz)ber(z) (2-152) 
<E plr) (2-153) 
=DVpla)r(z) (2-154) 
=Pr( X = xX’) (2-155) 
其 中 的 不 等 式 可 由 Jensen 不 等 式 和 函数 f(y) =2? 得 到 。 口 


下 面 给 出 的 要 点 省 去 了 某 些 必需 的 限制 条 件 , 请 读者 自己 查 对 。 
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习题 








2.1 ， 括 硬币 。 抛 掷 一 枚 均匀 的 硬币 ,直到 第 一 次 出 现 正面 为 止 , 设 X 表示 所 需 的 抛掷 次 数 。 


242 
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(a) RA H(X), 单位 为 比特 。 下 面 的 两 个 表达 式 可 能 会 用 到 : 

ye et Be Go 

(b) 假定 随机 变量 X 服从 该 分 布 。 试 找 出 一 个 “有 效 ” 的 是 否 型 问题 序列 , 其 问题 形式 如 “X 
包含 于 集合 S 吗 ?” 将 互 (X) 与 确定 X 取 值 所 需 问题 数 的 期 望 值 进行 比较 。 

HK, EX 是 取 有 限 个 值 的 随机 变量 。 如 果 

Ca). Yeo" 

(b) Y=cosX 

H(X)#l HCY) WARBKA (M-MAA EAA? 

RR) Hii. R Hpi Py) = 五 (p) 的 最 小 值 , 其 中 p 的 取 值 域 为 n 维 概率 向 量 集合 。 请 找 

出 所 有 达到 这 个 最 小 值 时 的 p。 eee 

MALES BR. HX 为 离散 型 随机 变量 。 请 通过 验证 如 下 步骤 证 明 X AY P hS 

必 小 于 或 等 于 X R: 


HOX,g(X)) 2 H(X) + H(g(X) IX) (2-168) 


= H(X) | (2-169) 
H(X,@(X)) = H(g(X)) + H(X|g(X)) (2-170) 


SHEIK). Y (2-171) 
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2.5 


2.6 


2.7 


2.8 


2.9 


2.10 


因而 有 H(g(X))<H(X). 

RAG. 证明; BHC Y|X)=0, WY BX 的 函数 ( 即 对 于 满足 p(xz)>0 的 任意 zx, 仅 存 

在 一 个 可 能 取 值 y, 使 得 2(z,y)>0)。 

条 件 互 信息 与 无 条 件 互信 息 。 试 给 出 联合 随机 变量 X,Y 和 2 的 例子 , 使 得 

(a) I(X;Y|Z)<I(X;Y) 

(b) I(X;YIZ)>I(X;Y) 

硬币 称 重 。 假 定 有 7 枚 硬币 ， 可 能 有 一 枚 或 者 没有 假币 。 如 果 是 假币 , 那么 它 的 重量 要 么 

重 于 其 他 的 硬币 , 要么 轻 于 其 他 的 硬币 。 用 天 平 对 硬币 称 重 。 

(a) ERE k 次 就 能 发 现 假币 (如 果 存 在 ), 且 能 正确 判断 出 该 假币 是 重 于 还 是 轻 于 其 他 和 硬 
Th, 试 求 硬币 数 n 的 上 界 。 

(D) ( 较 难 ) 试 给 出 对 12 枚 硬币 仅 称 &= 3 次 就 能 发 现 假币 的 称 重 策略 。 

有 放 回 与 无 放 回 抽取 。 一 个 容器 里 面 装 有 7 TOR, w 个 白 球 和 5 个 黑 球 。 若 从 容器 中 抽 

取 上 个 球 (k 宇 2), 对 有 放 回 和 无 放 回 两 种 情形 , 哪 种 情形 的 焙 更 大 ? 请 回答 并 给 予 证 明 。 

(有 两 种 方法 可 以 回答 该 习题 , 一 种 较 难 , 而 另 一 种 相对 较 简 单 。) 

度量 。 对 任意 的 zx Aly, 满足 

e o(z,y)20 

e p(x,y)=ply,z) 

© 当 且 仅 当 z=y,o(z,y)=0 

e plz,y)+ ely,2z)2e(z,2z) 

则 称 函 数 o(z ,y) 为 一 个 度量 。 

(a) 证 明 p(X, Y)=H(X|Y)+ HCYIX) 满 足 上 述 第 一 条 、 第 二 条 和 第 四 条 性 质 。 如 果 存 
在 从 X 到 Y 的 一 对 一 函数 映射 ,我 们 说 X= Y, 那么 p(X,Y) 也 满足 第 三 条 性 质 , A 
而 它 是 度量 。 

(b) 验证 p(X, 了) 也 可 表示 为 


p(X,Y)=H(X)+ HCY) -21(X;Y) (2-172) 
= H(X,Y)-I(X;Y) (2-173) 
=2H(X,Y)- H(X)- H(Y) (2-174) 
不 相交 组 合 的 炉 。 设 离散 型 随机 变量 X; 和 X, 的 概率 密度 函数 分 别 为 p1(* ) 和 pa(*), F 
母 表 分 别 为 XY1= 11,2,…,mj ,2= {m+1,…,n|l。 设 
人 概率 为 a 
Xy 概率 为 1 一 a 


(a) 试 求 H(X) 关 于 H(X) A(X) Al a 的 表达 式 。 


(b) 试 对 a 进行 最 大 化 , 证 明 2HOO<2HOW) + QHD, 利用 28 为 有 效 的 字母 表 大 小 这 个 


概念 对 此 进行 解释 。 
相关 性 的 度量 。 设 XxX 与 X2 同 分 布 ， 但 不 一 定 独 立 。 设 
_|_ HOGIXD 
po H(X,) 


(a) 证 明 p= AAD 


(b) 证 明 0<p<1。 
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N N 


.13 
.14 


15 


16 


17 


(c) 何 时 有 p=0? 

(d) 何 时 有 p=1? 

ROMA. KR plc, yp HARA 

试 计 算 : 

(a) H(X), HCY). 

(b) H(X| Y),H(Y|X). 

(c) H(X,Y). 

(d) H(Y)-HCY|X). 

(e) I(X;Y). 

(f) 画 出 (a) 一 (e) 中 所 有 量 的 文 氏 图 。 

不 等 式 。 证 明 对 任意 的 r>0,nr>1- E, 

和 的 精 。 设 随机 变量 X,Y 的 取 值 分 别 为 zj,zz…z 和 yy y%， 设 Z=X+Y。 

(a) 证 明 H(Z|X)=HCY|X), 并 讨论 如 果 X,Y 独 立 , WACY)SH(Z)RA(X)S 
日 (Z)。 由 此 说 明 独 立 随 机 变量 的 和 增加 不 确定 度 。 

(b) 给 出 一 个 (必须 是 相关 ) 随 机 变量 例子 , 使 得 H(X)>H(Z) 有 HH(Y)>H(2Z)。 

(c) 在 什么 条 件 下 , H(Z)=H(X)+ HCY)? 

数据 处 理 。 设 Xi 一 X2 一 X3 一 … 一 X, 依 序 构成 马尔 可 夫 链 ， 即 设 


PLEI E23 s En) = P(x) pra zi) pCa, | En-1) 


试 将 1(X1; XX,，…,X, ) 简 化 到 最 简单 形式 。 

瓶颈 模型 。 假 定 ( 非 平 稳 ) 马 尔 可 夫 链 起 始 于 个 状态 中 的 一 个 , 然后 第 二 步 受到 限制 , 转 
移 到 上 个 状态 之 一 (k<n), 第 三 步 又 放宽 , 转移 到 m 个 状态 中 的 一 个 (wm >>k)。 于 是 有 
X> X> X, MIER z€ 111,2,*…,n|, zz 和 11,2, kl, r3€ 11,2,…,m|, 有 
p( 21,202,203) = p(x) p( 22/21) p(x3/ x2) 0 

(a) 试 通过 证 明 1(X1;X3)<logk 说 明 Xi 与 X3 的 相关 程度 受 瓶颈 作用 的 限制 情况 。 

(b) 4 k=1f}, 计算 XX), 并 且 得 出 结论 : 通过 该 瓶颈 作用 后 Xi 和 Xs 不 再 具有 相 

关 性 。 

纯 随机 性 与 倾向 性 硬币 。 设 X1,X,,…,XX, 表 示 独 立地 抛掷 一 枚 倾向 性 硬币 所 产生 的 可 能 结果 
的 随机 变量 。 于 是 ,PrlX =1}=p,PriX,=0}=1- p, HP p RA. BMX, Xr. Xa PR 
得 均匀 硬币 抛 搓 的 序列 Z Zs Ze 为 此 , 设 f:X" 一 10,1}" (其 中 10,1 = 1A,0,1,00, 
01,… 为 所 有 有 限 长 度 的 二 元 序列 集合 ) 表 示 映 射 FLX X00 Xa) = (Zi Za. Za) 其 中 


Z,~Bernoulli( 4) , 而 K 的 取 什 可 能 依赖 于 (X,,X,，…,X,)。 为 了 让 Zis Za 成 为 抛掷 均匀 


硬币 所 产生 的 随机 序列 ， 从 倾向 性 硬币 抛掷 到 均匀 硬币 抛掷 的 映射 /必须 具有 特定 的 性 质 , 即 
在 给 定 长 度 丰 时 ,所 有 X 个 序列 (2 ,2 到) 具有 相同 的 概率 (可 能 为 0), 其 中 =1,2,…。 
例如 ,n=2 时 , 映射 f(01) =0, f(10) =1, f(00) = f(11) = AEB), WE PriZ,=11/K=1}= 


PrlZi=0IK= 填 = 十。 请 给 出 下 列 不 等 式 成 立 的 理由 ; 








(a) 
nH(p) = H(X1,…, X,) 


(b) 


>H(Z1, Z2, , ZK, K) 





ELA 


JAAFAR- B48, 27 





2.19 


2.20 


2.21 


2.22 


2.23 


2.24 


2.25 


© H(K)+H(Z,, =, ZęlK) 
< H(K)+E(K) 


(e) 

之 EK 
因而 在 平均 意义 上 , 从 (Xi1,…,X。) 中 得 到 的 均匀 硬币 抛掷 次 数 不 会 超过 nH(p)。 举 出 长 
度 为 4 的 序列 上 的 恰当 的 映射 fo 
世界 职业 棒球 锦标 赛 。 世 界 职业 棒球 锦标 赛 为 7 场 系列 赛制 ,只 要 其 中 一 队 赢得 4 场 , 比 
赛 就 结束 。 设 随机 变量 X 代表 在 棒球 锦标 赛 中 , A 队 和 B 队 较量 的 结果 。 例 如 ,，X 的 取 
值 可 能 为 AAAA,BABABAB,BBBAAAA。 设 Y 代表 比 赛 的 场 数 , 到 值 范围 为 4 一 7。 假 定 
A 队 和 B 队 是 同等 水 平 的 , 且 每 场 比赛 相互 独立 。 试 计算 H(X), H(Y),H(Y|X) 及 
H(X|Y)。 


无 穷 丧 。 毕 题 说 明 离散 型 随机 变量 的 箭 可 能 是 无 穷 的 。 设 A = > (alon). (考虑 到 


(ror) KEDA 人 的 一 个 上 界 ,， 容 易 证 明 A 是 有 限 的 。) 证 明 : 设 X 是 由 Pr(X=>) 
= (Anlog’n) ! 定 义 的 整数 值 随机 变量 , 其 中 n=2,3,…, M H(X)= +, 

游程 编码 。 设 Xi,X; ,…,X,( 可 能 相关 ) 均 为 二 元 随机 变量 。 假 定 某 人 对 此 序列 ( 按 先 后 
产生 的 次 序 ) 计 算出 游程 R= (Ri,R,,…)。 例 如 , 序列 和 X= 0001100100 产生 游程 为 R= 
(3,2,2,1,2)。 请 你 比较 H(X,,X,,°°,X,), H(R)& 昌 (X,,R), 给 出 所 有 等 式 和 不 等 式 
关系 以 及 差别 的 范围 。 

概率 的 马尔 可 夫 不 等 式 。 设 训 (z) 为 概率 密度 函数 。 证 明 对 任意 的 d 宇 0, 有 


Pri p(X)<allog + <H(X) (2-175) 


思路 的 逻辑 顺序 。 在 实际 中 , 常常 会 由 于 某 种 需要 而 有 序 地 论述 某 些 思路 , 然后, BAD 

要 就 会 对 这 些 思路 作 进一步 的 推广 。 请 重新 给 如 下 所 述 思路 排列 顺序 , 要 求 是 强 的 排 在 

前 面 , 蕴含 的 紧 随 其 后 。 

(a) (Xe, Xa 了 ) 的 链 式 法 则 ,，D(p(z1,… san) eq (xi,zx2，… ,x )) 的 链 式 法 则 ,以 及 
五 (XXX ARE 

(b) D(f || g) 疡 0; Jensen 不 等 式 I(X; Y)20. 

条 件 互信 息 。 考 虑 ”个 二 元 随机 变量 Xi, Xo, X, 组 成 的 序列 。 如 果 含 偶数 个 1 的 每 个 

序列 的 概率 为 2-("” 0， SRT 1 的 每 个 序列 的 概率 为 0, 试 计算 以 下 的 互信 息 


I(Xi1; X2), I(X3; X3! X1) I(Xn-1; Xal X10 X 2) 


PAW. H) = 一 plogzp -(1- ploy, (1 — p) A 70h BR. 

(a) 利用 log 31.584, 计算 HUA) WA. GF: 可 以 考虑 具有 4 种 等 可 能 结果 的 试验 ， 
其 中 某 个 结果 比 其 他 的 更 有 趣 。) 

(b) 当 概 率 p 的 值 在 ON p<1 范围 内 均匀 选取 , iAP H(p). 

(c) G&A) RHAH Hp), Po. Ps), 其 中 (pi, pz, 思 3) 为 均匀 分 布 的 概率 向 量 。 推 广 
到 维 情 形 。 

文 氏 图 。 HLL, 不 存在 度量 三 个 随机 变量 所 共有 的 互信 息 概念 。 在 这 里 , 我 们 尝试 给 出 

一 种 定义 : 根据 文 氏 图 , 三 个 随机 变量 X,Y 和 2 的 公共 部 分 的 互信 息 可 定义 为 

I(X;Y;2Z)=I(X;Y)- I(X;Y|Z) 


[a8 | 
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2.26 


2.27 


2.28 


2.29 


2.30 


2.31 


2.32 





尽管 上 述 定义 并 不 对 称 , 其 实 这 个 量 关 于 X 和 Z 是 对 称 的 。 遗 憾 的 是 ，TI(X; Y;Z) 不 

一 定 非 负 。 试 举例 XY 和 2Z, 使 得 I(X;Y;Z)<0, 并 证 明 以 下 两 个 恒等式 ; 

(a) I(X;Y;Z)=H(X,Y,Z)-H(X)-H(Y)-H(Z)+I(X;Y)+I(Y;Z)+I(Z;X)ə 

(b) I(X; Y;2Z)= H(X, Y,Z) —- H(X, Y) —- H(Y,Z) — H(Z,X)+ H(X)+ H(Y)+ H(Z). 
第 一 个 恒等式 可 类 似 的 由 焙 和 互信 息 的 文 氏 图 得 到 理解 。 第 二 个 恒等式 由 第 一 个 容 
易 得 到 。 

相对 灶 非 负 性 的 另 一 个 证 明 。 为 突出 结论 D(p 上 9) 之 0 的 基本 性 , 我 们 再 给 出 另 一 个 

证 明 。 

(a) 证 明 对 任意 的 0<x<%, 有 Inzxr-1。 

(b) 判定 下 列 步 又 : 





- D(plg)= dip()in nee} (2-176) 
< So (L2 - 1) (2-177) 
<0 * (2-178) 


(c) 等 号 成 立 的 条 件 是 什么 ? 
灶 的 组 合法 则 。 设 p=( 思 ,加 ,…, 轧 ,) 为 m 个 元 素 上 的 概率 分 布 ( 即 9.250, 且 > b= 1)0 Æ 


义 敬一 1 个 元 素 上 的 新 分 布 q 为 gq1 = pi,92= Pas Im-2 = Pm-2 RR Qm-1 = Pm-1 + Pm (BH 
分 布 q 与 p 在 集合 1,2,…,m 一 2} 上 是 相同 的 , q 中 最 后 一 个 元 素 的 概率 为 p 中 最 后 两 个 
元 素 的 概率 之 和 )。 证 明 

Pm-1 Pm ) 


H(p) = H(@) + (pn-1+ Pn) H(5 -1 t Pm’Pm-1+ Pm 
AE HE de, WE BD R AB (Ba pi,…, Dis > Pm) ASD TO OD HH 


(pis PP PEP o, pn IS AENEA E: 使 概率 分 布 更 均匀 


BA) AE A AE HS HT 
RAR, AX YAZ 为 联合 随机 变量 。 证 明 下 面 的 不 等 式 ， 并 给 出 等 号 成 立 的 条 件 。 
(a) H(X, Y|Z)=H(X1Z). 
(b) I(X, Y;Z)S1(X3Z). 
(© H(X, Y,Z) - H(X, Y)X<H(X,Z) - H(X). 
(d) I(X;Z| YIIZ; YI X)— 1(Z; Y) + I€X3Z). 
Ško RX 是 取 非 负 整 数值 的 随机 变量 , 对 固定 的 值 A >0, 试 求 在 约束 条 件 

EX = > np(n) = 
“FAS 有 H( 久 ) 达 到 最 大 时 的 概率 密度 函数 p(x), 并 计算 出 H(X) 的 最 大 值 。 
kA 在 什么 条 件 下 有 H(X | 
g(Y))=H(X|Y)? 
费 诺 。 设 (X,Y) 的 联合 分 布 如 右 表 : 
BX(Y)A X 的 估计 量 ( 基 于 Y), 
P,=PriX(Y)#X}. 
(a) BOR B/VRE EAE XCY)S 





(2-179) 











H 


2.33 


2.34 
2.35 


2.36 


2.37 


2.38 


2.39 


2.40 


2.41 


FAS tj 5 BASE 29 





相应 的 P,。 
(b) 估计 出 该 习题 的 费 诺 不 等 式 , 并 与 (a) 中 求 得 的 值 比较 。 
EREX, WPr(X=1)=p,,i=1,2,°°,m, E peppy im, WA X 的 最 小 
RE EH DX = 1, 此 时 产生 的 误差 概率 为 P.=1- p1。 试 在 约束 条 件 1- p= 
下 最 大 化 HH(p), 由 此 根据 H RIP, 的 取 值 范围 。 这 也 是 无 条 件 的 费 诺 不 等 式 。 
初始 条 件 灶 。 证 明 对 任意 的 马尔 可 夫 链 ，H(Xo| X, ) 随 ” 非 减 。 
相对 粹 是 不 对 称 的 。 设 随机 变量 X 有 三 个 可 能 的 结果 
ta,b,c}。 考 虑 该 随机 变量 上 的 两 个 分 布 ( 右 表 ) : 
计算 H(p), Hq), Do ll dM Dla | p), 并 验证 在 此 情 
AF D(p ll g¥D(q | p)。 
st 4k eo Fast, RPO 2.35 所 示 , 在 一 般 情况 下 
Dipl DED l p), 但 也 存在 使 等 号 成 立 的 分 布 。 请 
举 出 二 元 字母 表 上 的 两 个 分 布 p 和 g, 使 得 D(p Il q) = 
D(a | p) ( 除 平凡 情形 p=¢ 外 )。 
相对 灶 。 设 三 个 随机 变量 XY 和 2 的 联合 概率 密度 函数 为 p(x,y,z)。 联 合 分 布 和 边际 
Sy Ai He FA [A] AS AAT A 


D(p( x+y.) li p(x) p(y) p(2)) = E[ log she |] (2-180) 


p(x) ply) plz) 
ERATE. TARR RT HA 07 
问题 的 值 。 设 X~ p(x), r=1,2; m, 给 定 一 个 集合 SE11,2,--,m}. BRYA XES 
时 , 得 到 的 答案 为 











1 如 果 XES 


Y= | mex S 


假定 Pri XE S| =a, 试 求 不 确定 度 的 缩减 量 HX- HXIY). BR, 给 定 a, 任 何 集合 


S 的 表现 与 其 他 的 集合 是 一 样 的 。 


炳 与 两 两 独立 。 设 X、Y AZ 为 三 个 服从 Bemoulli( > ) 的 二 元 随机 变量 , 且 两 两 相互 独 

立 , 即 I(X;Y)=I(X;Z)= I(Y;Z)=0。 

(a) 在 上 述 约束 条 件 下 , H(X,Y,Z) 的 最 小 值 是 多 少 ? 

(b) 举 出 达到 这 个 最 小 值 时 的 例子 。 

BOR. HX MY 为 两 个 独立 且 取 整数 值 的 随机 变量 。 设 XX 在 {1,2,…,8|} 上 均匀 分 布 ， 

Pri Y=k} =2>*,R=1,2,3,°%'0 

(a) ® H(X). 

(b) 3K HCY). 

(c) R H(X+ Y,X-Y). 

随机 问题 。 要 判别 随机 目标 X~ p(x). 问题 Q~r(qg)KF r(g) 随 机 地 提问 , 结果 产生 

确定 的 答案 A= A(x,g)€ 1al,a2,…|。 假定 X 和 Q HEMT, FE IX; Q, A)» hik 

一 答案 对 (Q,A) 之 后 X 剩 下 的 不 确定 性 。 

(a) 证 明 1(X;Q,A)= H(A|Q), 并 给 予 解释 。 

(b) 现在 假定 有 两 个 iid. 的 问题 Qi, Qor Et, 其 答案 分 别 为 A 和 A WH 
1(X3Q,,A1,Q2,A2)<21(X;Q),A1) 0 在 此 意义 下 , 说 明 两 个 问题 不 比 单个 问题 问 


Ei 








30 


RIE 





2.43 


2.44 


2.45 
2.46 


2.47 


2.48 


两 次 的 效果 更 差 。 

不 等 式 。 下 列 不 等 式 在 一 般 情 况 下 是 “之 "`、“= ”还 是 “ 委 " 关 系 ? 请 将 每 个 不 等 式 用 “ 宇 ”、 

“= ”或 “ 委 " 标 出 各 自 的 正确 关系 。 

(a) H(5X)49 H(X). 

(b) I(g(X); YF I(X;Y)o 

(c) H(X9|X-1,) 45 H(Xo| X_-1,X1)o 

(d) H(X, Y)A A(X) + H(Y)) 与 1。 

正面 和 反面 的 互信 息 。 

(a) 考虑 抛掷 一 枚 均匀 硬币 。 硬 币 出 现 正面 和 反面 的 互信 息 是 多 少 ? 

(b) 如 果 我 们 掷 一 果 有 6 面 的 均匀 山子 , 那么 顶 面 和 前 面 (经 常 面 对 你 的 那个 侧面 ) 出 现 的 
互信 息 又 是 多 少 ? 

纯 随 机 性 。 假 定 用 一 枚 具有 三 面 的 硬币 来 产生 均匀 硬币 抛掷 过 程 。 设 硬币 X 的 概率 密度 

函数 为 


其 中 pa, Pp 和 pc 未 知 。 

(a) 如 何 通过 两 个 独立 的 抛 据 Xi 和 X 产生 (如 果 可 行 ) 一 个 Bernoulli( 方 ) 随 机 变量 z? 
(b) 生成 的 最 大 均匀 二 进 制 序列 的 数量 的 期 望 数 是 多 少 ? 

ARA, WEB: 对 于 离散 随机 变量 XE 11,2,…1, WR ElogX<o, M H(X)<%。 

炉 的 公理 化 定义 ( 较 难 )。 如 果 为 度量 信息 而 假定 某 些 公理 , 将 不 得 不 使 用 如 炉 那 样 的 对 
数 度量 。 香 农 利用 这 点 确保 隧 的 最 初 定义 的 合理 性 。 在 本 书 中 , RESA TAR 
其 他 性 质 而 非 公理 化 推导 来 确保 它 的 使 用 价值 。 下 面 这 个 题 比 起 本 节 的 其 他 习题 要 困 
难 多 。 

车 对 称 函数 序列 Hn (Pr, Post's pm) 满足 下 列 性 质 ; 


+ pret Ha(4.4)=1, 
。 ESE: H,(p.1-D)A p 的 连续 函数 ， 
。 组 合法 则 : Hy (Pi, Prec Pm) = Hm-1 (pit Po» Pass Pm) + (Pi + p2)’ 


Hl( pi b2 ) 





Pit pr’ pit Pa 
证 明 H, 必定 具有 如 下 形式 : 
Hml Pis p2,°**, Pm) 二 一 > pilogp:, m 二 2,3，… (2-181) 
KAKEAAWABLERART OS He. PN, ABIL Csiszár 和 Korner 


[149]. 

RAR SAE. MIERA n 张 ， 顺序 依次 为 1,2,…,n。 现 在 从 这 副 扑克 中 随 
机 地 抽出 一 张 牌 ， 然后 再 随机 地 将 其 放 回 。 这 样 ， 糖 为 多 少 ? 

序列 长 度 。 序列 的 长 度 含有 序列 内 容 的 多 少 信息 ? 假定 考虑 Benoli(4 ABIX], 当 
第 一 个 1 出现 时, 过程 停止 。 设 N 表示 这 个 停 时。 因此 ，Xe 为 所 有 有 限 长 的 二 元 序列 集 
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{0,1} * = 10,1,00,01,10,11,000,…| 中 的 一 个 元 素 。 
(a) 求 I(N; X”). 

(b) R H(XN|N)。 

(c) R H(X). 


现在 考虑 一 个 不 同 的 停 时 。 仍 假定 X,~Bemoulli( +), 但 过 程 在 时 刻 N = 6 停止 的 概率 为 


方 ,在 时 刻 N= 12 停止 的 概率 为 全。 设 该 停 时 独立 于 序列 XiX2…Xizs 


(d) 求 I(N;X%), 
(e) 求 H(XN|N)。 
(f) R HON). 


历史 回顾 


HRSA EAA PIA, MTERA FE EE. WA, 统计 力学 告诉 我 们 , ER 
统 的 某 个 宏观 状态 中 , BASRA SARSGAARD WRC RAR, WORLDS 
玻 尔 兹 曼 的 伟大 成 就 , 他 给 出 了 方程 式 S = kinW，, 该 方程 式 作为 墓志 铭刻 在 了 他 的 墓碑 上 
[361]. 

20 世纪 30 年 代 ，Hartley 在 通信 系统 中 引入 了 信息 的 对 数 度量 。 这 个 度量 本 质 上 是 字母 表 大 
小 的 对 数 。 本 章 中 信 与 互信 息 的 定义 由 香农 [472] 首 先 给 出 。 相 对 业 概 念 由 库 尔 贝 克 (Kullback) 
和 Leibler[ 339] 首 先 定义 , 它 有 各 种 各 样 的 命名 , 包括 Kullback-Leibler RBS. MH. ABBE. HF 
息 判 别 , 在 Csiszir[138] 和 Amari[22] 中 其 详细 的 论述 。 

这 些 量 的 许多 简单 性 质 都 是 由 香农 发 展 起 来 的 。 费 诺 不 等 式 的 证 明 见 Fano[ 201]。 充分 统计 
量 概念 由 费 希 尔 (Fisher)[209] 定 义 ， 而 最 小 充分 统计 量 是 由 Lehmann 和 Scheffé[350] 引 入 的 。 互 
信息 与 充分 性 关系 的 解释 归功 于 Kullback[335]。Brilouin[77] 和 Jaynes[294] 对 信息 论 和 热力 学 之 
间 的 关系 给 予 了 广泛 的 讨论 。 

信息 物理 学 是 一 门 相当 新 型 的 学 科 , 产生 于 统计 力学 、 量 子 力学 和 信息 论 。 讨 论 的 关键 问题 
是 如 何 将 信息 表示 物理 化 。 量 子 信道 容量 (物理 系统 中 可 分 辨 的 制备 数量 的 对 数 ) 和 量子 数据 压 
缩 [299] 都 是 定义 明确 的 问题 , 利用 冯 HR SR RBS. ATFRFABHRE, UR 
观察 到 的 物理 事件 的 边际 分 布 与 任何 联合 分 布 均 不 一 致 (没有 局 部 的 真实 ) 这 一 结论 (体现 于 贝尔 
(Beli) 不 等 式 ), 量子 信息 的 研究 有 了 新 的 课题 。Nielsen 和 Chuang 所 著 的 基础 文献 [395] 较 为 详 
尽 地 论述 了 量子 信息 论 , 同时 包含 本 书 中 的 许多 结论 的 量子 形式 。 人 们 也 试图 确定 在 计算 上 是 
否 存在 着 本 质 的 物理 限制 , 这 些 工 作 包 括 Bennett[ 47] 以 及 Bennett 与 Landaner[ 48], 
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第 3 章 渐 近 均 分 性 


在 信息 论 中 , 与 大 数 定律 类 似 的 是 渐 近 均 分 性 (AEP)， 它 是 弱 大 数 定律 的 直接 结果 。 大 数 定 
律 针对 独立 同 分 布 (i.i.d.) 随 机 变量 ， 当 ”很 大 时 ， 43%, 近似 于 期 望 值 EX。 渐 近 均 分 性 表明 





1 1 TAL eee i AS eee 
nlog D(X Xp X ENTA H, 其 中 Xi, X230, X, 为 i.i.d. 随机 变量 , p(X, X, ,X,) 


是 观察 序列 Xi ,XX,,… X, 出 现 的 概率 。 因 而 , 4 ”很 大 时 , 一 个 观察 序列 出 现 的 概率 p(X, 
X27, X ) 近 似 等 于 2°", 

这 促使 我 们 将 全 体 序列 组 成 的 集合 划分 成 两 个 子 集 , 其 一 是 典型 集 , 其 中 样本 焙 近 似 于 真实 
MW; 其 二 是 非典 型 集 , 包含 其 余 的 序列 。 我 们 将 主要 关注 典型 集 , 这 是 因为 任何 基于 典型 序列 的 
性 质 都 是 以 高 概率 成 立 的 , 并 且 决 定 着 大 样本 的 平均 行为 。 

首先 举 个 例子 。 设 随机 变量 XC 10,11 的 概率 密度 函数 为 p(1)=p pO) =q. EX, 


XX X iid BIRA p(x), 则 序列 ziare, 出 现 的 概率 为 p(x) 。 比 如 , 序列 


(1,0,1,1,0,1) 出 现 的 概率 是 p>Xg* IX = pg?。 很 显然 ,并非 所 有 长 度 为 n 的 2" 个 序列 都 具 
有 相同 的 概率 。 

然而 , 我 们 能 够 预测 出 实际 观测 到 的 序列 的 概率 , 即 可 以 求 出 观测 结果 Xi ,Xa,…,X, 的 概 
率 p(X1, Xe X), HX, Xo. X, 为 id 一 p(z)。 这 是 一 个 自 引 用 的 问题 ,但 仍然 是 可 
以 明确 定义 的 。 显 然 , 我 们 是 在 寻求 服从 同一 概率 分 布 的 事件 的 概率 ， 而 结论 是 p(X X2,…， 
X, ) 将 以 高 的 概率 接近 于 2- 吧 。 

对 此 , 概括 为 “几乎 一 切 事 件 都 令 人 同等 的 意外 。” 换 言 之 , 当 Xi XX, Hid. ~p 


(z) 则 


Pri (Xi X23, Kn) :p(X1, Xs, KX) =2 MAE | wey (3-1) 

在 这 个 例子 中 ,p(X1,X，,… ,XX,) = p>Xg"->* 可 以 简单 地 说 序列 中 1 出 现 的 个 数 近 似 等 于 
np( 以 很 高 的 概率 ), 且 所 有 这 样 的 序列 (粗略 地 ) 有 相同 的 概率 2) 。 下 面 用 概率 论 中 的 收敛 
概念 , 其 定义 如 下 : 

定义 (随机 变量 的 收效 ) 给 定 一 个 随机 变量 序列 X, Xo FI X,,X2,- MAPLE 
量 X 有 如 下 三 种 情形 : 

1. 如 果 对 任意 的 es>0,， Pri | X, -XI|>el0, 则 称 为 依 概率 收敛 。 

2. WR E(X,- X) ->0,， 则 称 为 均 方 收敛 。 

3. 如 果 Prilim,.X, = X}=1, WPA ARMA 1( 或 称 几 乎 处 处 ) 收 敛 。 


3.1 渐 近 均 分 性 定理 


下 面 定 理 给 出 渐 近 均 分 性 的 公式 描述 。 
定理 3.1.1( AEP) Æ Xi, KX. X, Hi.i.d~ p(z), 则 


- L loga (X1, X2 XD >H 依 概率 (3-2) 
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证 明 : 独立 随机 变量 的 函数 依然 是 独立 随机 变量 。 因 此 , 由 于 X; 是 i.i.d., 从 而 logp(X;) 也 
是 i.i.d.。 因 而 ,由 弱 大 数 定律 ， 


- Tlogp(X1, X2, Xn) =- 2 loge (X;) (3-3) 
| 一 -Elogp(X) 依 概率 (3-4) 
=H(X) (3-5) 
这 就 证 明了 该 定理 。 g 
定义 KF p(xz) 的 典型 集 AP (typical set) 是 序列 (zx1,x2,…,x,)EX" 的 集合 , 且 满 足 性 
质 : 

2° "(HOt Cp( EiT ,Tn ) £27 "HX (3-6) 

作为 渐 近 均 分 性 的 一 个 推论 , 可 以 证 明 典 型 集 AS 有 如 下 性 质 : 


定理 3.1.2 

1. wR (r1 T2, EA, W HOD- e<- loep (tay e, £ )SH(X) +e 

2. 当 n 充分 大 时 , Pri{ AM} >1-¢. 

3. AMKO, 其 中 |A| 表 示 集 合 A 中 的 元 素 个 数 。 

4. Bn ABRAM, APSO- e) H09, 

由 此 可 知 , 典型 集 的 概率 近似 为 1， 典型 集中 的 所 有 元 素 几 乎 是 等 可 能 的 , 且 典 型 集 的 元 素 
个 数 近似 等 于 2", 

证 明 : 性 质 (1) 的 证 明 可 直接 由 AS? 的 定义 得 到 。 第 二 个 性 质 由 定理 3.1.1 直接 得 到 , 这 是 
由 于 当 ”一 co 时 , PCX, X EAP 的 概率 趋 于 1。 于 是 , 对 任意 5>0, 存在 no, 使 得 
当 n 之 no 时 , 有 





Pr|| -Tlogp(X1, Xa, X,) HOD <e| >1-8 (3-7) 


令 d=c, 即 可 得 到 定理 的 第 二 个 性 质 。 取 o= e 便于 以 后 简化 符号 。 
为 证 明 性 质 (3), RITA 


1 = >) p(x) a (3-8) 
xe X" . < o 
> Di p(x) o (3-9) 
xEA™ 
> 2 27" He) (3-10) 
xE A" 
=2- n(H(X) +e) | A | (3-11) 
其 中 第 二 个 不 等 式 由 式 (3-6) 得 到 。 因 此 
| A |27 HOO te) (3-12) 
最 后 ,， 当 n ZAKR, Pri ALP} >1-—e, 所 以 
t-e <Pr{A‘”} (3-13) 
< 5 2-2(CHCX)-e) (3-14) 
2M HOO=0) | AC) | (3-15) 


其 中 第 二 个 不 等 式 由 式 (3-6) 得 到 。 因 此 ， 
| AS”) >- © 27H) -0 (3-16) 


[58] 





34 第 3 章 





至 此 完成 对 A 的 性 质证 明 。 
3.2 AEP 的 推论 : 数据 压缩 


设 X1,X,,…,X, 为 服从 概率 密度 函数 p(z) 的 i.i.d 随机 变量 。 为 获取 这 些 随机 变量 序列 的 
简短 描述 , HEA” 中 的 所 有 序列 划分 成 两 个 集合 : 典型 集 A 及 其 补 集 , 如 图 3-1 所 示 。 






XA TCR 


典型 集 
AW2"19 个 元 素 
图 3-1 典型 集 与 信 源 编码 
将 每 个 集合 中 的 所 有 元 素 按 某 种 顺序 (比如 字典 序 ) 排 列 。 然后 给 集合 中 的 序列 指定 下 标 可 
以 表示 AM 中 的 每 个 序列 。 由 于 AY? HE RBA") | 则 这 些 下 标 不 超过 nH +e) +1 
比特 ( 需 额外 的 1 比特 是 由 于 ”( 互 +e) 可 能 是 非 整 数 )。 在 所 有 这 些 序列 的 前 面 加 0, 表示 AL”? 
中 的 每 个 序列 需要 的 总 长 度 生 na(H+e)+2 比特 (如 图 3-2 所 示 )。 类 似 地 , 对 不 属于 AL? 的 每 


个 序列 给 出 下 标 , 所 需 的 位 数 不 超 过 nlog| 世 | + 1 比特 。 再 在 这 些 序列 前 加 1, BI TART A 
中 所 有 序列 的 一 个 编码 方案 。 


非典 型 集 
描述 : nlog|Xl+2 比 特 


典型 集 
描述 : n(H+e)+2 比特 
图 3-2 利用 典型 集 进 行 信 源 编码 
YER, 上 述 编码 方案 有 如 下 特征 : 
。 编 码 是 1- 1 的, 且 易于 译 码 。 起 始 位 作为 标识 位 ， 标明 紧 随 码 字 的 长 度 。 
。 对 非典 型 集 A 的 元 素 作 了 枚 举 ,， 没有 考虑 ALY 中 的 元 素 个 数 实 际 上 少 于 XY" 中 元 素 


个 数 。 而 让 人 惊讶 的 是 , 这 足以 产生 一 个 有 效 的 描述 。 
。 典 型 序列 具有 较 短 的 描述 长 度 守 nH。 


下 面 用 记号 2" 表示 序列 x1,z2，…,zw。 W Lx”) 表示 相应 于 广 的 码 字 长 度 。 若 ”充分 大 ， 
使 得 Pri AM | S1-e, FE, 码 字 长 度 的 数学 期 望 为 
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E(1(X")) = Dpr") (3-17) 
= D pala) + >) pla) U2") (3-18) 
LEAD rea 
< >) p(x2")(n(H + ©) +2) 
Zea” . 
+ >) p(x")(nlog [4] +2) (3-19) 
TEA™ 
=Pr{ A} (a(H+e)+2)+Pr| A | (nlog|X| +2) (3-20) 
S<n(H+e)+ en(log|v’|)+2 (3-21) 
=n(H+e’) (3-22) 


Sth e’ =e+elgl X| + 之 ,适当 选取 e Mn 时 ，s' 可 以 任意 小 。 至 此 , 我们 已 经 证 明了 如 下 的 


定理 。 
定理 3.2.1 设 为 服从 p(xz) 的 i.i.d 序 列 ,e>0, 则 存在 一 个 编码 将 长 度 为 n 的 序列 x" 映 
射 为 比特 串 , 使 得 映射 是 1 一 1 的 (因而 可 送 ), 且 对 于 充分 大 的 n， 有 


E| He) |<H(x) +e (3-23) 
因而 从 平均 意义 上 , 用 nH(X) 比 特 可 表示 序列 Xo 
3.3 ”高 概率 集 与 典型 集 


由 A 的 定义 , BHA” 是 包含 大 多 数 概率 的 小 集合 。 但 从 定义 看 , 并 不 清楚 它 是 否 这 类 
集合 中 的 最 小 集 。 下 面 证 明 典 型 集 在 一 阶 指数 意义 下 与 最 小 集 有 相同 的 元 素 个 数 。 
定义 ”对 每 个 n=1,2,…, 设 BYCY. 为 满足 如 下 条 件 的 最 小 集 ， 即 
Pri BX |21- 68 (3-24) 
我 们 将 讨论 BY 5AP 的 交集 充分 大 ,使 其 含有 足够 多 的 元 素 。 在 习题 3.3.11 中 , 我 们 给 出 了 
下 面 定 理 的 证 明 思路 : 
定理 3.3.1 BX, X27, X, 为 服从 p(x) 的 i.i.d 序 列 。 对 8< 方 及 任意 的 6 >0， 如 果 
Pri Bi | >1-8, N] 
Flog] BY? | >H- 8° 对 于 充分 大 的 (3-25) 


因此 在 一 阶 指数 意义 下 ，B4) 至 少 含有 ATH. HAS? KAA 2° OH TR. MWY, 
AM 的 大 小 差不多 与 最 小 的 高 概率 集 是 相同 的 。 
下 面 引入 一 个 新 记号 以 表示 一 阶 指数 意义 下 的 相等 概念 。 
定义 ”记号 a,b, 表示 
lim Tlog $2 =0 (3-26) 


RE, a =b, 表明 a, Gb, 在 一 阶 指数 意义 下 是 相等 的 。 
由 此 可 将 上 述 结果 重 述 为 : 如 果 9. 一 0 和 6, 一 0, 则 
| BS? |= | Ag? |52 (3-27) 


为 说 明 Aw” 与 BY? 之 间 的 区 别 ， 考虑 一 个 伯 努 利 序 列 Xis X2, ee, Xaos 其 参数 Pp =0.9 
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(Bemoulli(9) 随 机 变量 是 一 个 二 值 随机 变量 , 其 取 1 值 的 概率 为 9)。 此 时 , 典型 序列 中 1 所 占 的 

比例 近似 等 于 0.9。 然 而 , 这 并 不 包括 很 可 能 出 现 的 全 部 是 1 的 序列 。 集 合 BY? 包括 所 有 很 可 能 

出 现 的 序列 ， 因而 包括 全 部 为 1 的 序列 。 定 理 3.3.1 表明 AL SBP 必定 包含 了 所 有 1 所 占 比 
例 大 约 为 90% 的 序列 , 且 两 者 的 元 素数 量 几乎 相等 。 





习题 


3.1 马尔 可 夫 不 等 式 与 切 比 雪夫 (Chebyshev) 不 等 式 。 
” (a) (马尔 可 夫 不 等 式 ) 对 任意 非 负 随 机 变量 X 以 及 任意 的 :>0, 证 明 


Pri x>: 和 至 (3-31) 
请 举 出 一 个 随机 变量 , 使 不 等 式 中 的 等 号 成 立 。 
(b) ( 切 比 雪夫 不 等 式 ) 设 随机 变量 Y 的 均值 与 方差 分 别 为 x Mo, W X=(Y- p), 证 明 
对 任意 的 ESO, 
Pril¥—pl>el<% , (3-32) 


(c) (KARENE Z1, Zos Za 为 ii.d. 随机 变量 序列 ,其 均值 和 方差 分 别 为 y Flo’. 
SZ, = LY Z, 为 样本 均值 。 证 明 


d 2 
PrilZ,~ el >e A ES 
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因此 , 当 n>}, Pr|12, 一 py|>el>0。 这 就 是 著名 的 弱 大 数 定律 。 


3.2 AEP 5 Zig, HCX,, Y,)Hi.i.d~ p(z,y)o i X ALY 独立 与 假设 X A Y 相关 的 对 数 


3.3 


3.4 


3.5 


3.7 


3.8 


似 然 比 。 求 





1, p(x")p(y”) 
n 8 p(x, Y") 


的 极限 。 
一 块 蛋糕 。 蛋 糕 被 粗糙 地 切 成 两 块 ,每 次 留 下 大 的 那 块 继续 切 ， 同 时 抛弃 小 的 那 块 。 假 定 
随机 切割 产生 的 两 块 的 大 小 比例 为 


2 1 3 
SHR HENG 
2 3 1 
(55) 概率 为 4 
例如 , 第 一 次 切割 (并 选取 大 的 那 一 块 ) 的 可 能 结果 是 留 下 的 这 块 蛋糕 大 小 为 原先 的 村。 对 
这 块 蛋 糕 继续 切 成 两 半 并 选取 大 的 那 一 块 , 则 第 二 次 留 下 的 那 块 蛋糕 大 小 可 能 缩小 至 原来 
的 ( 专 )( 凶 )。 在 一 阶 指数 意义 下 ,蛋糕 被 ”次 切割 后 将 缩小 至 多 大 ? 
AEP, 设 X 为 iid.~p(zx),zT€E11,2,…,ml,y= EX 以 及 H= —Splx)logp(z). 8 


A= 


o 





1 Xl<e 
n i=l 





EX’: -L loge 2") 一 H|<e | ,B” = |aeg": 
(a) Pri X” € A” }—>1 992 
(b) Pri X" € A” N B" |—>1 MS? 
(c) 证 明 : 对 任意 的 n, (ANB S2, 
(d) 证 明 : 当 充分 大 时 , LA" Br |= (5 jar? 
由 概率 定义 的 集合 。 设 X1,X,,… 为 i.i.d. 离散 随机 变量 序列 , HA H(X). KR 
C) =| EXr: p2" } 
RREZ WRA n 长 序列 构成 的 子 集 。 
(a) WEH | Cp (t) [S27 
(b) 当 + 为 何 值 时 , 有 POUX EC, (t)! )>1? 
类 似 于 AEP 的 极限 。 设 XX|,X，,…,X, 为 i.i.d 序 列 且 服从 概率 密度 函数 p(x)。 试 求 
tim (p(X) X2 X, ))7 
AEP 与 信 源 编码 。 一 个 离散 无 记忆 信 源 发 送 二 元 数字 序列 , 其 中 所 有 数字 相互 独立 且 
p(1) =0.005, p(0) =0.995。 假 设 每 次 发 送 100 位 , 对 每 100 位 至 多 含 3 个 1 的 每 个 序列 进 
行 二 元 编码 。 | 
(a) 假定 所 有 码 字 的 长 度 相等 , 试 求 最 短 长 度 使 得 能 够 为 至 多 包含 3 个 1 的 所 有 序列 提供 
码 字 。 
(b) 试 计算 观察 到 一 个 无 码 字 匹配 的 信 源 序列 的 概率 。 
(o) 利用 切 比 雪夫 不 等 式 , 求 观测 到 一 个 无 码 字 匹配 信 源 序列 的 概率 的 取 值 范围 。 并 将 这 
个 范围 与 (b) 中 计算 得 到 的 实际 概率 做 比较 。 
乘积 。 设 
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1 
1, 概 率 为 > 
X=42, 概 率 为 二 
3, 概 率 为 二 
设 Xi, 义 ,,… 为 服从 上 述 分 布 的 i.i.d 序列。 请 找 出 如 下 乘积 的 极限 行为 
(XI 入 2 X,)” 

3.9 AEP, 设 Xi,X2 ,为 独立 同 分布 随 机 变量 序列 ， 服 从 概率 密度 函数 plr), zE 11,2,°", 
ml 。 于 是 ,如 (ziyzz，…， £n) = TI oa) o 已 知 - L logp (Xi, X2，…,X,) 一 昌 (X)( 依 概 
$) Balana a) = [T alap ,其 中 g 是 (1,2,…,m| 上 的 另 一 个 概率 密度 函数 。 
(a) 计算 im 一 十 loga( Xi X230 Xp)» 其 中 Xi Xo, 为 服从 p(xz) 的 i.i.d 序 列 。 

(b) 计算 对 数位 然 比 二 jog Le HE, BEY X;，X2,… 为 服从 pCa) HB iid 
序列 。 由 此 说 明 当 p 为 真实 分 布 时 , 偏好 分 布 g 的 优势 将 以 指数 衰减 。 

3.10 随机 盒子 尺寸 。 考 虑 一 个 边 长 分 别 为 Xi, X2 XX3,…,X, Mn EBERT, HERY V, 
= JÜ X;。 与 该 随机 盒子 体积 相同 的 x 维 立方 体 的 边 长 为 1 = Vi B Xi, Xs,… 为 服从 
单位 区 间 [0, 1] 上 的 均匀 分 布 的 i.i.d. 随机 变量 。 试 求 ，lim V,” 并 与 (EV,) RR E 
然 , 取 期 望 后 的 边 长 没有 准确 反映 出 随机 盒子 体积 的 原意 。 几 何平 均 而 非 算 术 平 均 刻 画 
出 了 乘积 的 行为 。 

3.11 定理 3.3.1 的 证 明 。 此 题 说 明 最 小 的 “可 能 ”集合 的 数目 大 约 为 2 吗 。 设 Xi Xat, Xa 为 
ARM p(x) EM iid PES, BOO CH 48 Pri BY} >1- 6, 并 固定 e<} 

(a) 给 定 任 意 两 个 集合 AMB, 使 得 Pr(A)>1-¢, M1 Pr(B)>1-e,, WH Pr(ANB)> 
1- el 一 e2。 因此, WH Pr AMO BY’ )S1-e-6. 
(b) 验证 如 下 不 等 式 链 中 的 每 一 步 
1-e- 6 <Pr( A” 1) BY”) (3-34) 
= >) p(x") (3-35) 
AONB, 
< >» 2-n(H-e) (3-36) 
AONB? 
= [AM A BYP 27r H-9 (3-37) 
<| BY? |2779 (3-38) 
(c) 完成 定理 的 证 明 。 
3.12 ”经验 分 布 的 单调 收效 性 。 设 Xi Xes X, A iid plz), TEX, 记 p 为 相应 的 经 验 


概率 密度 函数 。 具 体 讲 ， 
p(x) = + UX, = 2) 
为 前 个 样本 中 出 现 X;= xz 次 数 的 比例 , 其 中 了 为 示 性 函数 。 
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3.13 


(a) 证 明 对 二 元 字母 表率, 有 
ED(p2, | P)SED(ĝ, || p) 
由 此 说 明 , M28 5) A Bll ELSE 5) AY “BB” Se Be A TER o 
GER: bo, SHG by tG Dn EARD 的 凸 性 。) 
(b) HEATHER WAFERS, 有 
ED(, || p)<ED(, -1 ll p) 
(提示 : 将 n 个 样本 中 的 每 个 样本 依次 删 去 , 由 此 得 到 n 个 经 验 密度 函数 ,再 考虑 将 
Pn 写成 这 nn 个 经 验 密度 函数 的 平均 。) ; 
典型 集 的 计算 。 为 清楚 理解 典型 集 AO 和 最 小 高 概率 集 BY 的 概念 , 我 们 用 一 个 简单 的 
例子 来 说 明 。 考虑 i.i.d. 的 二 值 随 机 变量 序列 X, X X,, 其 中 X,=1 的 概率 为 0.6 
(因此 X =0 的 概率 为 0.4)。 
(a) 计算 H(X). 
(b) 如 果 n=25 Me =0.1, 哪些 序列 落 人 典型 集 A 中 ? 典型 集 的 概率 为 多 大 ? 典型 集 
中 有 多 少 个 元 素 ? (这 涉及 一 个 附 表 , 其 给 出 所 有 上 个 1(00 委 和 25) 的 序列 的 概率 ， 以 
及 找 出 这 些 序列 中 有 哪些 属于 典型 集 。) 
(c) 在 概率 为 0.9 的 最 小 集中 含有 多 少 个 元 素 ? 





(d) (b) 5 (c) 中 所 述 集合 的 交 含 有 多 少 个 元 素 ? 这 个 交集 的 概率 为 多 大 ? 
(”) (a-o -L logp(a") 
0 1 0.000000 1.321928 
1 25 0.000000 1.298530 
2 300 0.000000 1.275131 
3 2300 0.000001 1.251733 
4 12650 0.000007 1.228334 
5 53130 0.000054 1.204936 
6 177100 0.000227 1.181537 
7 480700 . 0.001205 1.158139 
8 1081575 0.003121 1.134740 
9 2042975 0.013169 1.111342 
10 3268760 0.021222 1.087943 
11 4457400 0.077801 1.064545 
12 5200300 0.075967 1.041146 
13 5200300 0.267718 1.017748 
14 4457400 0.146507 0.994349 
15 3268760 0.575383 0.970951 
16 2042975 0.151086 0.947552 
17 1081575 0.846448 0.924154 
18 480700 0.079986 0.900755 
19 177100 0.970638 0.877357 
20 53130 0.019891 0.853958 
21 12650 0.997633 0.830560 
22 2300 0.001937 0.807161 
23 300 0.999950 0.783763 
24 25 0.000047 0.760364 
25 1 0.000003 0.736966 
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历史 回顾 


渐 近 均 分 性 (AEP) 首 先是 由 香农 在 1948 年 的 开创 性 论文 [472] 中 进行 了 论述 , 他 针对 i.i.d. 
过 程 的 结果 给 予 了 证 明 , 并 且 讨 论 了 平稳 遍历 过 程 的 结果 。McMillan[ 384] 和 Breiman[74] 证 明了 - 
遍历 有 限 字 母 表 上 的 信 源 的 AEP。 该 结论 现在 称 为 AEP 或 Shannon-McMillan-Breiman 定理 。 
Chung[ 101] 将 定理 推广 到 可 数字 母 表 情形 , 而 Moy[392]，Perez[418] 和 Kieffer[312 HEM T 3 
(X; 连续 取 值 且 遍 历时 的 Li 收 全 性 。Barron[ 34] 和 Orey[402] 证 明了 实 值 遍历 过 程 的 几乎 处 处 收 

SHE; 在 16.8 节 中 将 利用 简单 的 三 明治 方法 (Algoet 和 Cover[20]) 证 明 一 般 的 AEP. 





第 4 章 falta 


第 3 章 中 的 渐 近 均 分 性 质 表明 在 平均 意义 下 使 用 nH(X) 比 特 足 以 描述 ”个 独立 同 分 布 的 随 
机 变量 。 但 是 , 如 果 随 机 变量 不 独立 , 尤其 是 随机 变量 成 为 平稳 过 程 时 , 情况 又 如 何 呢 ?我 们 将 
证 明 , 正如 i.i.d. 情形 , WH H(X,,X2,-°,X, ) 随 n 以 速率 互 (起 )( 渐 近 地 ) 线 性 增加 ,这 个 速率 称 
ALE ME, BF 吾 () 为 什么 可 以 解释 为 最 佳 的 可 达 数 据 压缩 , 待 到 第 5 章 中 再 作 分 析 。 


4.1 马尔 可 夫 链 


随机 过 程 }X:} 是 一 个 带 下 标的 随机 变量 序列 。 一 般 允 许 随 机 变量 间 具 有 任意 的 相关 性 。 刻 
画 一 个 过 程 需 要 知道 所 有 有 限 的 联合 概率 密度 函数 
Pri (Xi, X25 Xp) = (21,223, Ly) | = Ply 295° Ly) 
其 中 (zj,x2,… ,Xi)EX",n=1,2,…。 
定义 ”如 果 随 机 变量 序列 的 任何 有 限 子 集 的 联合 分 布 关 于 时 间 下 标的 位 移 不 变 ， 即 对 于 每 
个 n 和 位 移 7, 以 及 任意 的 zl,zz，…zvE 寺 , BE 
Pri Xi = 2 ,,X_= x25, X = Ta] 
=Pr| Xj = £1, X241 = 400° Xue) = In} (4-1) 
则 称 该 随机 过 程 是 平稳 的 。 
一 个 非 独 立 随 机 过 程 的 简单 例子 是 随机 序列 中 的 每 个 随机 变量 仅 依 赖 于 它 的 前 一 个 随机 变 
量 , 而 条 件 独立 于 其 他 前 面 的 所 有 随机 变量 , 这 样 的 过 程 称 为 马尔 可 夫 过 程 。 
定义 ”如 果 对 n=1,2,…, 及 所 有 的 zi,zz,…，zE 光 ,有 
Pr( Xp +1 = Tanti1| Xn = Zn, Xn-1 = La-19 KX1= 24) 
= Pr( X41 = raril Xp = x,) (4-2) 
则 称 离散 随机 过 程 Xi ,X2,… 为 马尔 可 夫 链 或 马尔 可 夫 过 程 。 
”此 时 ,随机 变量 的 联合 概率 密度 函数 可 以 写 为 


pxisT2s° "Ta) = p(X)p ra| zr) p(xal za) p(x | zx, -1) (4-3) 
定义 ”如 果 条 件 概率 p(xz,+1|z;) 不 依赖 于 n, BIT n=1,2,…, 有 
Pr{X,+1=6(X,=a}=Pr{X,=6/X,;=a} 对 任意 a,65EX (4-4) 
则 称 马尔 可 夫 链 是 时 间 不 变 的 。 


若 无 特 别 声明 , 总 假定 马尔 可 夫 链 是 时 间 不 变 的 。 

如 果 1X;| 为 马尔 可 夫 链 , 则 称 X, An 时刻 的 状态 。 一 个 时 间 不 变 的 马尔 可 夫 链 完全 由 其 初 
始 状态 和 概率 转移 矩阵 P=[P;] 所 表征 , 其 中 P; =PriX,+t1=j/Xs=il,i,jE11,2,…,ml|。 

车 马尔 可 夫 链 可 以 从 任意 状态 经 过 有 限 步 转移 到 另 一 任意 状态 , 且 其 转移 概率 为 正 , 则 称 此 
马尔 可 夫 链 是 不 可 约 的 。 如 果 从 一 个 状态 转移 到 它 自身 的 不 同 路 径 长 度 的 最 大 公 因 子 为 1, 则 称 
马尔 可 夫 链 是 非 周期 的 。 

如 果 在 时 刻 n, 随机 变量 的 概率 密度 函数 为 plr), 那么 在 n +1 时刻, 随机 变量 的 概率 密 
度 函 数 为 


70 
71 





[7] 
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P(ay41) = D(a) Pre, (4-5) 


若 在 2+1 时 刻 , 状态 空间 上 的 分 布 与 在 n 时 刻 的 分 布 相同 ， 则 称 此 分 布 为 平稳 分 布 。 如 果 马 尔 
可 夫 链 的 初始 状态 服从 平稳 分 布 , 那么 该 马尔 可 夫 链 为 平稳 过 程 , 这 也 正 是 平稳 分 布 的 称谓 由 
来 。 

若 有 限 状态 马尔 可 夫 链 是 不 可 约 的 和 非 周期 的 , 则 它 的 平稳 分 布 惟一 ,从 任意 的 初始 分 布 出 
E, 当 2 一 co 时 , 蕊 ,的 分 布 必 趋 向 于 此 平稳 分 布 。 

例 4.1.1 考虑 两 状态 的 一 个 马尔 可 夫 链 ,其 概率 转移 矩阵 为 

_fl-a a 
p=| ; ol (4-6) 

如 图 4-1 所 示 。 


状态 1 有 状态 2 
图 4-1 两 状态 的 马尔 可 夫 链 
BAS w 表示 平稳 分 布 , 其 分 量 分 别 为 状态 1 和 状态 2 的 概率 。 通 过 解 方程 xP = jy 即 可 求 
得 平稳 概率 , 或 更 简便 地 , 利用 平衡 概率 的 方法 求 得 。 对 于 平稳 分 布 ,穿越 状态 转移 图 中 任意 割 
集 的 网 络 概率 流 必 为 0。 将 此 结论 应 用 于 图 4-1, 即 可 得 
wa = mB (4-7) 
由 于 ji + 2 二 1， 则 平稳 分 布 为 
t= (4-8) 
如 果 该 马尔 可 夫 链 的 初始 状态 服从 平稳 分 布 , 则 导出 的 过 程 是 平稳 的 。 在 n 时 刻 的 状态 X HIR 
为 





HD = (af ) (4-9) 
然而 , HIERN 五 (Xi ,X, X, ) 的 增长 速率 。 由 于 X; 之 间 存 在 着 相关 性 , 要 将 问题 说 清楚 ， 
还 需 费 一 番 功 夫 。 


4.2 WE 


如 果 给 定 一 个 长 度 为 ”的 随机 变量 序列 , 我 们 自然 会 问 : AFIRE ”如 何 增长 ? 下面 
定义 这 个 增长 率 , BUTEA E. 
定义 ” 当 如 下 极限 存在 时 , 随机 过 程 {Xi| 的 粹 率 定义 为 
H(X) = lm SH (X,, X27, X,) (4-10) 


FS BLA EL EF 
1. 打字 机 。 假 定 一 台 打 字 机 可 输出 m 个 等 可 能 的 字母 。 由 此 打字 机 可 产生 长 度 为 的 m” 
个 序列 , FEAL AREA RE. AE, H(X, X,°°°, Xa) = logm”, WEH H(X) = logm 比特 / 字 
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f- 2. iid. 随机 变量 序列 XX1 ,XX，，,…,X,。 此 时 , 有 
H) = lim Mae Xa) i XY) OX) (4-11) 
RIERA R NAY eS He. 
3. 独立 但 非 同 分 布 的 随机 变量 序列 。 在 此 情形 下 ,有 
H(X1, Xa = HK) (4-12) 


但 五 (X) 不 全 相等 。 我 们 可 以 选择 X1, X2,… 的 一 个 分 布 序列 , HX, ) 的 极限 不 存 
在 。 例 如 取 二 值 随机 分 布 序列 , 其 中 p; = P(X;=1) 不 是 常数 , 而 为 i 的 函数 。 通 过 细心 选取 p; 
可 使 得 式 (4-10) 的 极限 不 存在 。 例 如 , 对 =0,1,2…, W 
10.5 2k<log logi<2k+1 
lo 2k+1<log logi<2k+2 
此 时 , 该 序列 的 情况 是 , 满足 H(X;) =1 的 随机 变量 序列 (可 以 任意 长 ) 之 后 , 紧 接 着 是 更 长 
以 指数 变化 的 序列 满足 日 (X;) =0。 所 以 ,日 (X;) 的 累积 平均 值 将 在 0 与 1 SAR, 从 而 不 存 
在 极限 。 因 此 , RIE HV). 
我 们 也 可 以 定义 业 率 的 一 个 相关 的 量 (如 果 下 列 极限 存在 ) : 
H (X) = limH(X, | Xn -1 Xa -23 X1) (4-14) 
EXM W(X )SA PRT SMTA. BOTH ”个 随机 变量 
HSA, 而 第 二 个 量 指 在 已 知 前 面 x -1 EULER PRT LER A. F 
面 我 们 证 明 一 个 重要 结论 , 即 对 于 平稳 过 程 ， 以 上 两 者 的 极限 均 存 在 且 相 等 。 
定理 4.2.1 对 于 平稳 随机 过 程 , 式 (4-10) 和 式 (4-14) 中 的 极限 均 存 在 且 相 等 : 
H(X)=H (X) (4-15) 
我 们 先 来 证 明 limH(X,|X, -1,… ,Xi1) 存 在。 
定理 4.2.2 ”对 于 平稳 随机 过 程 ， 百 (X,| 和 1，……X1) 随 7 递减 且 存 在 极限 HH (YL). 
TERA : 


(4-13) 





HX, 41) X15 X250 Xn) SAK +1 | Xp X2) (4-16) 
= H(X,|X,-1.°, X1) (4-17) 
HPU EERE, MSR KEYES. AF HX, | 
-1…，,X1) 是 非 负 且 递减 的 数列 , 故 其 极限 H (XEFE. 口 
接 下 来 使 用 数学 分 析 中 的 一 个 如 下 简单 结论 。 
定理 4.2.3(Ceshro 均值 ) # aa, Hb, = +e 则 已 ao 


证 明 :( 非 正式 思路 ) 由 于 序列 | a,| 中 的 大 部 分 项 最 终 趋 于 a, BRA, b, Fela, BIRT ”项 的 平 
均 , 也 将 最 终 趋 于 a。 

ERER: 设 es>0。 由 于 a, >a, 则 存在 N(e), 使 得 对 任意 的 之 N(e), Ala,-al<eo 
因此 ,对 任意 的 "> 之 N(e), 有 


(b,-al=|4 3) (a, - a) 


<15 ICa; -a)l (4-19) 





(4-18) 
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< tM laa | 十 全 一 人 2 Ne (4-20) 

<4 aalts (4-21) 

当 ”一 co 时 ,上 面 的 第 一 项 趋 于 0， 帮 可 选取 充分 大 的 n, IEF] b, - ca| 委 2e。 因 此 , 4 n> off, 
bn ao 口 


定理 4.2. 1 的 证 明 : 由 链 式 法 则 
XX = DHX | Xat X1) (4-22) 
也 就 是 说 , 炉 率 为 条 件 炉 的 时 间 平 均 。 然 而 ， 我 们 已 经 知道 条 件 精 趋 于 极限 上 因此 ,由 定理 
4.2.3 可 知 , RA BBCP EER, 且 此 极限 就 是 其 通 项 的 极限 H 。 于 是 , 由 定理 4.2.2， 


H(X) = im Ate Xa Me) 


=H (ZX) (4-230 
ORME HES UA OY NDE AEP. Æ 16.8 节 中 , 我 们 将 证 明 更 一 
般 的 AEP， 即 对 任意 的 遍历 过 程 ， 


-Tlogp(X1, X25) Xs) +H) (4-24) 


以 概率 1 收敛 。 由 此 , 第 3 章 中 的 所 有 定理 可 容易 地 推广 到 一 般 的 平稳 遍历 过 程 。 与 第 3 章 中 的 

iid. 情形 类 似 , 我 们 可 定义 典型 集 , 并 采用 同样 的 讨论 方法 , 可 以 证 明 典 型 集 的 概率 近似 为 1, HK 

约 有 2 个 长 度 为 n 的 典型 序列 , 其 每 个 序列 出 现 的 概率 大 约 为 2 到 5。 所 以 , 大 约 使 用 nH) 

比特 可 表示 长 度 为 n 的 典型 序列 。 这 体现 出 炉 率 可 以 表征 平稳 遍历 过 程 的 平均 描述 长 度 的 重要 意义 。 
对 任何 平稳 过 程 , BRA MEM. MMT SRA, 计算 炳 率 尤 为 容易 。 
马尔 可 夫 链 ”对 于 平稳 的 马尔 可 夫 链 , MRA 








=limH(X,|X,-1,.…, X4) 


H(X) = H (X) =limH(X, |X,._1, soe X) = limH(X, |X.) 
PMA RBAMM PRD AA. ERS, 平稳 分 布 w 为 下 列 方程 组 的 解 : 
m= 2pPs 对 任意 的 j (4-26) 


RIERREN RREO REFERER, 
定理 4.2.4 设 |X,| 为 平稳 马尔 可 夫 链 ,其 平稳 分 布 为 p, BBEA Po DEA 











H(X) =- DpPslogPs (4-27) 

W9: H(X) = H(X: | X,) = Da - P;logP;)o o 
例 4.2.1( 两 状态 的 马尔 可 夫 链 ) 如 图 4- 1 BR BARA S/N TEASE 

Hz) = HOGIX) = 245 +B (4-28) 


注释 若 马 尔 可 夫 链 是 不 可 约 的 且 非 周期 的 , 那么 该 马尔 可 夫 链 存 在 状态 空 间 上 的 惟一 平 
稳 分 布 , 并 且 给 定 任意 的 初始 分 布 , 当 n->oo 时 , 分 布 必 趋向 于 此 平稳 分 布 。 由 于 和 炉 率 是 依据 序 
列 的 长 期 行为 定义 的 , 那么 在 此 情形 下 ， 即 使 初始 分 布 不 是 平稳 分 布 ,， 粮 率 也 如 式 (4-25) 和 式 
(4-27) 中 给 出 的 H(X). 


4.3 例子 : MNBL HE 
作为 随机 过 程 的 一 个 例子 ,考虑 一 个 连通 图 (图 4-2) 上 的 随机 游 动 。 假 定 该 图 有 m 个 标记 
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为 1,2,…,m| 的 节点 , 其 中 连接 节点 i 和 j HWE W,>0. REMAN, 即 Ww, = 
Woe 关节 点 和 j 没有 连接 边 , WE W; =0。 
有 一 个 粒子 在 图 中 由 一 个 节点 到 另 一 个 节点 作 随 机 游 动 。 设 2 
随机 游 动 1X | ，X,€ |1,2,…,m| 为 图 的 一 个 顶点 序列 。 若 X, = 
i, 那么 下 一 个 顶点 j 只 可 能 是 与 节点 i 相连 的 所 有 节点 中 的 一 。! 3 
个 , 是 转移 概率 为 连接 i 和 j 的 边 权重 所 占 所 有 与 i 相连 的 边 的 
权重 之 和 的 比例 。 因 此 , Py = Ws/2) Wa o [78] 
对 此 情形 , 平稳 分 布 有 一 个 非常 简单 的 形式 。 我 们 将 猜测 并 
给 予 验 证 。 将 此 马尔 可 夫 链 的 平稳 分 布设 定 为 节点 i 的 概率 是 连 4 
接 ; 的 各 边 权 重 总 和 占 图 中 所 有 的 边 权重 总 和 的 比例 。 设 
W; = UW; (4-29) 


为 连接 节点 i 的 所 有 的 边 权 重 总 和 , 再 设 


5 


图 4-2 一 个 图 上 的 随机 游 动 





w= 2 Ws (4-30) 
为 图 中 所 有 的 边 权 重 总 和 ， 则 DW; =2W, 
现在 我 们 猜测 平稳 分 布 为 
W; 

B= IW (4-31) 

通过 检验 P= Aw 可 证 实 上 述 分 布 确 为 平稳 分 布 。 此 时 有 
DnP; = 之 了 wi Wwe (4-32) 

1 

= FW Wi (4-33) 
=% (4-34) 
= 4; (4-35) 


因此 ,状态 i 的 平稳 概率 为 连接 节点 i 的 各 边 权 重 总 和 占 所 有 的 边 权重 总 和 的 比例 。 此 平稳 分 布 
有 个 很 有 趣 的 局 部 性 质 : 它 仅 依赖 于 总 权重 以 及 与 该 节点 相连 的 所 有 的 边 权重 之 和 , 因而 若 改变 
图 中 某 些 部 分 的 权重 , 但 保持 总 权重 为 常数 , 平稳 分 布 不 会 有 所 改变 。 通 过 计算 , HRW 


H(X)=H(X2| Xi) (4-36) 
=- Dimi DP ylogP, (4-37) 

_ 5 Ww wile v (4-38) 

-之 Dz Mi og Ww W (4-39) 

-DE ezt De (4-40) 

aaae (4-41) 


如 果 所 有 的 边 有 相同 的 权重 , 则 平稳 分 布 可 设置 成 在 节点 i EWE QE, 其 中 E 表示 连接 
节点 RAR, E 表示 该 图 的 边 的 总 数 。 此 时 , 随机 游 动 的 炉 率 为 
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H(X) = log(2E) -H(5h.5g. 58 (4-42) 
TREE I NAS SE OOS AS AB BR TA, I AER, 仅 依赖 于 
FRAN MSO BR, 
例 4.3.1( 棋 盘 上 的 随机 游 动 ) 假定 一 个 “ 王 ? 在 8x8 的 (国际 象棋 ) 棋 盘 上 作 随 机 游 动 。 
王 ? 这 个 棋子 在 棋盘 内 部 时 可 有 8 个 移 位 , 在 边缘 时 有 5 个 移 位 ,在 角落 时 有 3 个 移 位 。 据 此 及 


前 面 所 述 结论 可 知 ， 平稳 概率 分 别 是 295， My. AT, WRA 0.92 log8。 因子 0.92 是 由 于 


边缘 效应 产生 的 ; 如 果 这 个 棋子 在 无 限 的 棋盘 上 游 动 , 则 可 得 其 粒 率 为 log8。 

类 似 地 , AT LORE“ E (EE logl4 比特 , 因为 “车 ”总 是 有 14 个 可 能 的 移 位 )“ 相 ”及 
“ER OS. “ER AA RBI” A AT EB HAM, 那么 “王后 ” 比 起 “车 ”和 
“fA”, 拥有 更 多 还 是 更 少 的 自由 度 呢 ? 

注释 ” 易 知 图 上 的 平稳 随机 游 动 是 时 间 可 逆 的 ， 即 是 说 任何 状态 序列 向 前 和 向 后 的 概率 是 
相等 的 : 

Pe ae = zn) 
= Pr( X, = 21,X,-1= +, X1=2,) (4-43) 
出 乎 意料 的 是 , 反 命 题 亦 成 立 , 即 任 何 时 间 TEM 马尔 可 夫 链 均 可 以 表示 为 某 个 无 向 加 权 图 上 的 
随机 游 动 。 


4.4 热力 学 第 二 定律 


热力 学 第 二 定律 是 物理 学 中 的 基本 定律 之 一 , 表明 孤立 系统 的 精 总 是 不 减 的 。 现 在 我 们 来 
阐述 该 定律 与 本 章 前 面 已 定义 的 焙 函 数 之 间 的 联系 。 

在 统计 热力 学 中 , GH EM AR GE OR AS EB. WRA RAAB EF 
可 能 发 生 的 , BRI RAI SB. 1f R ed 

现在 我 们 建立 模型 , 将 孤立 系统 视 为 一 个 马尔 可 夫 链 , 其 中 状态 的 转移 规律 由 控制 该 系统 的 
物理 定律 所 决定 。 此 假设 是 针对 系统 的 所 有 状态 的 , 并 且 , 如 果 知 道 现在 状态 ,系统 的 将 来 是 独 
立 于 系统 过 去 的 。 对 于 这 样 的 系统 , 我 们 可 以 获得 关于 第 二 定律 的 4 种 不 同 解释 。 HERRAD 
总 是 增加 时 , 或 许 会 让 人 震惊 , RMATA ERD. 

1. WA Dp, 上 BE n 递减 。 设 jp 和 jp 为 n 时 刻 的 马尔 可 夫 链 状态 空间 上 的 两 个 概 
率 分 布 , 而 p41 和 pei 是 时 刻 n+1 时 的 相应 分 布 。 令 对 应 的 联合 概率 密度 分 别 记 为 p 和 g。 于 
是 





pzasTat1) = p(xa)r (zari| ra) Qty Xn+1) = Sn) ans Zn) 
其 中 >( .| BRERA RR. HANA, 可 得 两 种 展开 式 : 
D(p(tps%n+1) ll gln, tne1)) = D(P(2,) ll g(a) 
+D(p(zxnri| zn) ae(zorilzo)) 
= D(p(ay+1) || qx,+1)) 

+D(p(lzal za+1) | 9 (xn | zn+1)) 
由 于 p 和 g 由 该 马尔 可 夫 链 推导 而 来 , 所 以 条 件 概率 密度 函数 pl tnl n) F q (xa+1|zxn ) 都 等 于 
(zrilza)。 于 是 D(p(zrari| tn) g(xzs+i|zxn))=0。 此 时 ,利用 DC p C2, l zn+1) | g(a, | 
za+1)) 的 非 负 性 (由 定理 2.6.3 的 推论 ), 可 得 

D(p(2,) ll a (a, ED pCa +11) | g(x,+1)) (4-44) 
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或 
D(a l Dae | pnt1) (4-45) 
因此 , 对 于 任何 马尔 可 夫 链 , 两 个 概率 密度 函数 间 的 距离 随时 间 n 递减 。 

现在 用 一 个 例子 形象 地 解释 上 述 不 等 式 。 假 定 加 拿 大 和 英格兰 对 于 财产 重新 分 配 都 采用 相 
同 的 税收 体系 。 设 心 Wy, 分别 代 表 两 个 国家 的 私人 财产 分 布 , 那么 由 上 述 不 等 式 表 明 , 这 两 个 
分 布 之 间 的 相对 箭 距离 将 随时 间 而 递减 。 加 拿 大 和 英格兰 的 财产 分 布 情况 将 愈 来 您 相似 。 

2. Æ n 时 刻 状 态 空 间 上 的 分 布 久 , ERDA p ZAHA D n | Mn BR. EX 
(4-45) 中 , u, 是 n 时 刻 状 态 空间 上 的 分 布 。 若 设 wm 是 任意 平稳 分 布 w, 那么 下 一 时 刻 的 分 布 
Kn BN po AM, 

Dle, | OSD naa ll) (4-46) 

上 式 表明 , 随 着 时 间 的 流逝 ,状态 分 布 将 会 愈 来 愈 接近 于 每 个 平稳 分 布 。 序 列 DOn | 4) 为 
单调 下 降 的 非 负 序列 , 其 极限 必定 存在 。 如 果 平 稳 分 布 是 惟一 的 , 则 极限 为 0, 但 证 明 这 一 点 并 
不 容易 。 

3. 车 平稳 分 布 是 均匀 分 布 , Woe, WRK, FD A ERA. AES 
匀 的 平稳 分 布 的 马尔 可 夫 链 就 是 一 个 简单 的 反例 。 如 果 马 尔 可 夫 链 的 初始 状态 服从 均匀 分 布 ， 
MEZERA, 那么 这 个 均匀 分 布 将 趋向 于 该 平稳 分 布 , 此 平稳 分 布 的 粹 必定 低 于 均匀 分 
Aa HR Aint, a A Td 

然而 , 如 果 平 稳 分 布 是 均匀 分 布 , UCT em A 

Dln | 2) =log|¥ | — Hn, ) = log|4| ~ H(X,) (4-47) 

Et, FA RAS AE. RSA ARAB RS, RPA 
微观 状态 都 是 等 可 能 发 生 的 。 现 在 来 刻画 具有 均匀 平稳 分 布 的 过 程 。 

定义 ” 若 概 率 转移 矩阵 [Pi ], 其 中 P; = Pr|X,+1=j| X= i| 满足 

DIP; = 1 = 1,2, (4-48) 
和 
DIP; = 1,2 = 1,2," (4-49) 


则 称 为 双 随 机 的 。 

注释 ”均匀 分 布 是 P 的 平稳 分 布 当 且 仅 当 概率 转移 矩阵 是 双 随 机 的 (见习 题 4.1)。 

4. 对 于 平稳 的 马尔 可 夫 过 程 ， 条 件 粮 晶 (X, | X1) 随 n 递增 。 如 果 马 尔 可 夫 过 程 是 平稳 的 ， 
则 HCX ) 为 常数 。 因 而 , PSEA. RT, 我 们 将 证 明 条 件 粹 互 (X,| Xi) 随 ” 递增。 于 是 ， 
未 来 状态 的 条 件 不 确定 性 是 递增 的 。 对 于 此 结论 , 我 们 给 出 两 种 证 明 方法 。 第 一 种 证 明 , ARR 
的 性 质 


H(X, |X) 2H(X,|X1,X2.) (条 件 作 用 使 焙 减 小 ) (4-50) 
=H(X,| X2) (由 马尔 可 夫 性 ) (4-51) 
=H(X,-11X,) (由 平稳 性 ) (4-52) 
另 一 种 方法 是 将 数据 处 理 不 等 式 应 用 于 马尔 可 夫 链 X >X,- 17> X,, WA 
T(XiX 1X15 Xn) (4-53) 
PP EA BURMA, 可 得 
H(X,-1) - H(X, -il XD 2H(X,) ~ HX, |X) (4-54) 


HFHH, HCX,-1:)=H(X,), 因而 有 
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H(X,,-\|X;)<H(X, | X,) (4-55) 
(这 些 技巧 也 可 用 来 证 明 对 任何 一 个 马尔 可 夫 链 , 五 (Xo|X,) 随 2， 递增 。) . 
5. AIHA m, WMR 工 是 一 副 扑 克 牌 的 一 次 洗 牌 (置换 ) 操 作 ，X 表示 这 副 牌 的 初始 ( 随 
机 的 ) 排 列 , 假定 洗 牌 操作 T 的 选取 独立 于 X, 那么 
H(TX)2H(X) (4-56) 
其 中 TX 表示 由 洗 牌 了 作用 于 初始 排列 X 而 获得 的 新 排列 。 在 习题 4.3 中 给 出 了 此 命题 的 
证 明 思 路 。 


4.5 马尔 可 夫 链 的 函数 


下 面 叙 述 的 例子 如 果 处 理 不 当 , 会 变 得 很 困难 。 这 从 某 种 程度 上 反映 出 目前 处 理 技术 的 能 
Ho BX ,X2，…X,… 为 平稳 马尔 可 夫 链 , 再 设 Y= X ) 是 一 个 随机 过 程 , 其 中 每 一 项 均 为 
原 马 尔 可 夫 链 中 对 应 状态 的 函数 。 此 时 焙 率 HY) ABP? 这 样 的 马尔 可 夫 链 的 函数 是 实际 经 
常 发 生 的 。 但 许多 情况 下 , 仅 含有 原 系统 的 状态 的 部 分 信息 。 若 了,Y，，… ,了 ,… 也 构成 一 个 马 
尔 可 夫 链 , 问题 就 会 简单 许多 , 但 实际 情况 往往 并 非 如 此 。 由 于 原 马 尔 可 夫 链 是 平稳 的 , 则 Y, 
Yose, Y, 也 是 平稳 的 , TTA AE CE, BTR HO), 我 们 可 能 会 先 对 每 个 n 计算 
HHCY, 1 YY, -1,…, Yi RA, 然后 求 其 极限 。 由 于 收敛 速度 可 能 会 任意 地 慢 , 很 难 知道 是 否 已 接 
近 极 限 ( 我 们 不 能 只 着 眼 于 在 nMn + 1 时 值 的 变化 , 即使 已 经 偏离 了 极限 , 这 种 变化 的 差别 可 能 


[B 依然 非常 小 , BD), 

如 果 给 出 上 界 和 下 界 , 且 它们 分 别 从 上 下 收敛 于 同一 极限 ,计算 效果 会 很 好 。 BORE, 4 ER 
和 下 界 的 差别 较 小 时 , 我 们 可 以 中 止 计算 而 获得 极限 的 一 个 很 好 的 估计 。 

已 知 HCY, | Yi,…，YD) 从 上 面 单调 地 收敛 于 HO) HFFA, HEA HCY, Y,-1,…， 
Yi,X1)。 这 个 想法 比较 巧 , 是 基于 Xi 5 Yi, Yo Y AHAT Y, 一 样 多 的 信息 。 





引 理 4.5.1 
再 (了 | Yi Y2, X) SHO) (4-57) 
证 明 : 对 有 =1,2,… ,有 
HCY, | Ys, Yo Xi) SE HOY, | Y, 1 Y2, Y1, X1) (4-58) 
2 HCYy| YX Xo, X 15777 Xe) (4-59) 
2 HCY) Y, 4, Yrs Xa Xo X10 
X-is Yo.» Ye) (4-60) 
SHY, | Y, 1 Yi, Yous» Ya) (4-61) 
EH(Yprgril Yates» Ya) (4-62) 


其 中 (a) 成 立 是 由 于 Yi 为 X HRM, (bT h X 的 马尔 可 夫 性 得 到 ，(c) 由 于 Y; 为 X; 的 函数 ， 
(dd) 由 于 条 件 作用 使 炉 减 小 , 而 (e) 根 据 平稳 性 可 得 。 由 于 对 任意 的 ,不等式 成 立 , 故 两 边 取 极 
限 不 等 式 亦 成 立 。 所 以 ， 


H( Y, | YY Y,,X1)<limH( Yneeeil 了 Yı) (4-63) 
=H(Y) (4-64) 
下 面 引 理 表明 , 由 上 述 上 界 和 下 界 所 构成 的 区 间 长 度 是 递减 的 。 


引 理 4.5.2 
HCY, | Y, ¥1) ~ HCY, l Yp -1303 Y1, X1) 20 (4-65) 
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证 明 : 上 述 区 间 长 度 可 重新 写 为 
H( | ss Yı) it Y, | = Y,,X)) 


(NY | a Wy) (4-66) 
由 互信 息 的 性 质 , 可 得 
IXs Yi; 2 (4-67) 
且 I(Xi; Y1, YY,) 随 ”递增 。 因 此 ,limT(X; Yi, Y2,°, Y ) 存 在 且 满 足 
limT(X1i Yin Wy Y,, )SH(X}) (4-68) 
由 链 式 法 则 ， : 
H(X,)>limI (X1; Yı, Yo," Yn) (4-69) 
= lim 3) 1043 Y 1 Yeas YD (4-70) 
= Ds Yal Yea YD (4-71) 
由 于 上 面 的 无 限 和 是 有 限 的 ， 目 每 项 均 为 非 负 值 ， 则 其 通 项 必 趋 向 于 0, B, 
limI(X,; ¥, | D i -Y;)= 0 (4-72) 
引 理 得 证 。 L 


综合 引 理 4.5.1 M51 4.5.2, 有 如 下 的 定理 。 
定理 4.5.1 若 X],X,,…,X, 构成 平稳 的 马尔 可 夫 链 , 且 Y,=0(X;), 那么 
H( Yel Yin Y1sX1) SH(V)<H( Y 区 1 (4-73) 


eC Yal Yii YX) =O) = a Y, | Yr- Yi) (4-74) 

一 般 地 , 我 们 也 可 以 考虑 X; 的 随机 函数 Y;( 即 非 确 定性 的 函数 )。 给 定 马尔 可 夫 过 程 Xi， 

Xas, Xn, WEENIE Yi, Yose, Yn, 其 中 每 个 Y; 服从 p(y;|z;), 且 条 件 独立 于 其 他 所 有 
的 X,j 关 i, B 


pry) = pled TT pa | 2) TI ploy z) (4-75) 
这 样 的 过 程 称 为 隐 马 尔 可 夫 模 型 (HMM), 它 已 广泛 应 用 于 语音 识别 .手写 体 识别 等 等 。 以 上 对 
马尔 可 夫 链 的 函数 的 讨论 同样 适用 于 隐 马 尔 可 夫 模 型 。 通 过 对 隐 含 的 马尔 可 夫 状态 加 入 条 件 ， 
我 们 可 以 佑 计 出 隐 马 尔 可 夫 模 型 炉 率 的 下 界 。 细 节 讨 论 留 给 读者 。 
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习题 


4.1 


4.2 


RAF 











双 随 机 和 矩阵。 对 于 nX n MEP =(P,], 如 果 Py 之 0 且 对 任意 的 ; 有 2)P; = 1, 以 及 任意 
的 了 有 DP; = 1， 则 称 该 矩阵 为 双 随机 的 。 如 果 半 X 半 矩阵 书 是 双 随 机 的 , 而 且 每 行 每 列 


均 只 含 一 个 P; =1, 则 称 它 为 置换 矩阵 。 可 以 证 明 ， 任何 双 随 机 和 抢 阵 均 可 以 表示 为 置换 矩 

阵 的 凸 组 合 。 

(a) 设 概率 向 量 a= (aiaz, an) ai >0, >a; =1。 设 b=aP, 其 中 己 是 双 随 机 的 。 证 . 
BA: b 为 概率 向 量 且 H(b,,62.°°,b,) =H (a1,42,°°7+0,)0 HIET WORE ERE 
SSH o 

(b) 证 明 双 随机 和 矩阵 P 的 平稳 分 布 y 为 均匀 分 布 。 

(c) 反之 , 证 明 : 若 均匀 分 布 为 马尔 可 夫 链 转移 矩阵 P 的 一 个 平稳 分 布 , 则 已 是 双 随 机 的 。 


atk. BX -。 为 平稳 随机 过 程 , 证 明 


H(Xo| X-X X-a = H( Xl XiX Xn) 
H, MARS OR AMRCEETLERAREETARAARMS. BRAD 
造 出 一 个 平稳 随机 过 程 ， 使 得 驶 向 将 来 的 随机 流 看 上 去 极其 不 同 于 通 向 过 去 的 随机 流 , 但 


改变 不 了 该 事实 。 这 就 是 说 ,人 们 可 以 通过 研究 过 程 的 一 个 样本 函数 而 确定 时 间 的 方向 。 


4.3 


4.4 


但 是 在 给 定 现在 状态 下 , 将 来 的 下 一 个 状态 的 条 件 不 确定 度 等 于 过 去 的 前 一 个 状态 的 条 件 


不 确定 度 。 
eM Ak Ja HG eo, IFAR 工 的 任何 分 布 和 扑克 牌 的 排列 X 的 任意 分 布 , 有 
H( TX)>H(TX|T) (4-82) 
SHT TXVT) (4-83) 
Š = H(X|T) (4-84) 
= H(X) (4-85) 


其 中 假设 X 与 工 独立 。 
热力 学 第 二 定律 。 设 X1, Xz,X3,… 为 一 阶 平稳 马尔 可 夫 链 。 在 4.4 节 中 ， 我 们 已 经 证 明 
H(X, | X;)2H(X,-11 X1), 其 中 N= 2 36 因此 ， 将 来 的 条 件 不 确定 度 随 时 间 增 加 。 即 
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4.5 








使 无 条 件 的 不 确定 度 HX, ) 保 持 为 常数 , 这 也 成 立 。 但 请 给 出 一 个 例子 说 明 未 必 对 每 个 
X15 H(X,,| X,= zi) 都 随 n 递增 。 
随机 树 的 精 。 下 面 考 虑 含 n 个 终端 节点 的 随机 树 产生 方法 。 首 先 将 根 节点 展开 


SN 


然后 随机 地 将 两 个 终端 节点 中 的 一 个 展开 : 


“入 人、 


ERA k, 依 均 匀 分 布 选取 一 1 个 终端 节点 中 的 一 个 , 并 展开 它 。 如 此 继续 ,直至 产生 n 
个 节点 为 止 。 由 此 , 致使 产生 具有 5 个 终端 节点 的 树 的 序列 如 下 : 


“个 入 入 


令 人 惊奇 的 是 , 下 面 的 随机 树 产 生 方 法 与 含 n 个 终端 节点 的 随机 树 具 有 相同 的 概率 分 布 。 
首先 在 {1,2,…,n 一 1| 依 均匀 分 布 选 取 一 个 整数 Ni, 则 可 得 到 如 下 的 图 形 


N, n-N, 


然后 在 11,2,…, Ni 一 十 依 均匀 分 布 选取 整数 N;, 并 在 11,2,…,(n 一 Ni) 一 1| 中 依 均匀 分 
布 独立 地 选取 另 一 个 整数 Ns。 此 时 图 形 为 


AY 


N, NN, N; n-N N, 


如 此 继续 到 不 能 再 进一步 细 分 为 止 。( 这 两 个 随机 树 产生 方案 是 等 价 的 , 例如 , 可 利用 波 利 
ERR (Polya’s urn model) 得 到 。) 

.现在 设 T, 为 上 述 方 法 产生 的 一 棵 含 4 个 终端 节点 的 随机 树 。 随 机 树 的 概率 分 布 似乎 
难以 描述 , 但 可 以 利用 递归 形式 求 得 其 分 布 的 粮 。 

先 举 几 个 例子 。 对 n ==2, 只 产生 一 棵 树 。 故 HT) =0。 对 n=3, 有 两 棵 等 可 能 的 


人 人 


于 是 HH(T3)=log2。 对 n=4, 则 有 5 棵 可 能 的 树 , 其 概率 分 别 为 1/3, 14, 1%, 14%, 14. 
下 面 考虑 递归 关系 。 设 N (T OAEI T, 右 半 部 分 的 终端 节点 数 。 请 验证 以 下 的 
每 一 步 : 





[i] 














52 RAE 
H(T,) 2 H(N;,T,) (4-86) 
2 H(N,) + H(T,| Ni) (4-87) 
2log(n - 1) + H(T, | Ni) (4-88) 
2 log(n D+ Say) + HCT, 4)) (4-89) 
Skogn — 1) + 2 SHT) (4-90) 
= log(n — 1) + 2H, (4-91) 


4.6 


4.7 


4.8 


(f) 利用 以 上 结果 证 明 
(n-1)H, = nH, -1 + (n — 1)log(n ~ 1) ~ (n ~ 2) log(n 一 2) (4-92) 
或 适当 定义 c,, 有 





十 cn (4-93) 


由 于 习 c = c< oo， WATE HT, WRF — THR. TE, ARR T, 所 需 的 期 望 
比特 数 随 线性 增长 。 

BARBOSA, 对 平稳 随机 过 程 Xis X233 Xn 试 证 明 

(a) H(X1, X25", Xn) HX) X27 Xn-1) 





(4-94) 


n—1 


>H(X, |X,-1,.%, X1) (4-95) 





n 
H(X,,X95°77, Xn 


RT KB 
(a) 设 两 状态 马尔 可 夫 链 的 转移 矩阵 为 
_ | T pa Po | 
P10 1- Pro 
TRAE 
(b) 当 po 、pio 为 何 值 时 , BT IAB EK? 
(c) 若 两 状态 马尔 可 夫 链 的 转移 矩阵 为 
[i-p p 
Pi 
RER AY HE 
(d) BR (cc) PERDRAMEWRAKA. HFRS 0 比 状态 1 能 产生 更 多 的 信息 , 可 以 期 
PARRA BR AAT HY p 必定 小 于 172. 
(e) HE N(1) 是 (c) 中 的 马尔 可 夫 链 长 度 为 t 的 容许 状态 序列 的 个 数 。 试 求 N(z) 并 计算 


Ho= tim logN(t) 
(提示 : RH N(z) 关 于 N(t 一 1) 和 N(z 一 2) 的 线性 递归 表达 式 。 为 何 Ho 是 该 马尔 可 夫 链 


EAD EAL? 请 将 Ho 与 (d) 中 求 得 的 最 大 炉 率 做 比较 。) 
最 大 粹 过 程 。 设 离散 无 记忆 信 源 的 字母 表 为 11,21 ,其 中 字符 1 的 周期 为 1, 字符 2 的 周期 


为 2, 1 和 2 的 概率 分 别 是 py P po RR AEA rata HA) = HCO ves ai kt 
pi E, 且 最 大 值 HEED? 
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4.9 初始 状态 。 证 明 , 对 于 马尔 可 夫 链 ,有 


4.11 


H( X91 X )ZH(Xol X, -1) 


由 此 说 明 , 随 着 将 来 状态 X, 的 逐渐 展现 , 初始 状态 X 将 会 变 得 更 难 复原 了 。 


BARS. HX, Xe X, _1 为 取 值 于 10,1| 的 i.i.d. 随机 变量 ， HL PriX,=1}=3. 当 


Sx, HAR, X,=1; 否则 X,=0. BRE n23. 


(a) 证 明 X; 与 X Mar GAs, 1,7€11,2,--,n}). 
(b) 求 H(X;,X;), IFjo 
(c) R H(X, X25 X,) 0 BREF nH(X,) 9S? 
平稳 过 程 。 设 …,X_1,Xo,X1,… 为 平稳 随机 过 程 (不 必 为 马尔 可 夫 链 )。 下 面 哪些 论断 是 
正确 的 ? 如 果 正 确 给 出 证 明 , 否则 给 出 反例 。 
(a) H(X, | Xo)= H(X-, | Xo)。 
(b) H(X, laine 1| Xo)。 
(c) H(X, | X1, Xa: . Xn- 19 X,+ DBE n 递减 。 
(d) H(X, Xi e Xan Xaas <, Xan) BE n 递减 。 
MELELAME, KAERRA LTE, 在 走 每 一 步 时 都 有 可 能 以 概率 p=0.1 AR 
方向 行走 一 步 。 设 Xo= 0, 且 第 一 步 朝 正方 向 或 负 方 向 走动 是 等 可 能 的 。 例 如 , 一 个 典型 
的 走动 可 以 是 如 下 形式 : 
(Xo, X1) =(0,-1,-2,-3,-4,-3,-2,-1,0,1,=-) 
(a) 试 求 H(X1,X,…,X, )。 
(b) AR RH 
(c) 这 只 狗 在 反 向 行走 前 所 走 的 步 数 的 期 望 值 为 多 少 ? 
这 去 用 了 没有 信息 可 以 预测 将 来。 对 于 平稳 随机 过 程 Xi, XX,…,X,,… ,证 明 


lims LIX X2 ,XXX X2n) =O (4-96) 


因此 ， 平稳 过 程 中 长 度 为 n 的 相 邻 分 组 的 依赖 度 并 不 随 线性 增加 。 
随机 过 程 的 函数 
(a) 考虑 平稳 随机 过 程 Xi,X,，… Xo WHET RRO, UM Yi, Yot Yn 为 





Y;=@(X;),2=1,2,°" (4-97) 
试 证 明 
HOY)<H(X) (4-98) 
(b) 若 对 某 个 函数 更 ,如 果 . 
Z,= Y(X; Xj4,),7=1,2,°" (4-99) 


WA RR H(Z)A HX) BAHAR? 
a, LX, ERRENA, HARY HAX). TER 


LHX, Xil Kos X19 Xa) HOX) (4-100) 
其 中 &=1,2,…。 
约束 序列 的 粹 率 。 在 磁 记 录 中 , 需要 对 记录 和 阅读 的 二 进 制 序列 进行 一 定 的 限制 。 例 如 ， 
为 确保 适当 的 同步 , 常常 有 必要 限制 1 与 1 之 间 的 0 的 游程 长 度 。 为 了 减少 符号 间 的 干 
扰 , 可 能 有 必要 在 任何 两 个 1 之 间 至 少 存在 一 个 0。 我们 将 通过 下 面 的 简单 例子 来 说 明 这 


[z] 








3] 





54 ae 





种 约束 。 假 定 要 求 序 列 中 任何 两 个 1 之 间 必 须 有 0, 但 序列 中 不 能 连续 出 现 两 个 以 上 的 0。 
因此 , 如 序列 101001 和 0101001 都 是 有 效 的 序列 ， 而 0110010 和 0000101 均 为 无 效 序列 。 
下 面 我 们 要 计算 长 度 为 n 的 有 效 序列 的 个 数 。 

(a) 证 明 约 束 序列 集合 等 同 于 如 下 状态 图 中 的 容许 路 径 集合 。 


(b) 记 X;(n) 为 所 有 终止 于 状态 i 且 长 度 为 n 的 有 效 路 径 的 条 数 。 请 证 明 X(n) =[X1(n) 
Xa(n)X(n)]’ 满足 如 下 的 递归 关系 : 
X,(n~-1) 
son 


Xi(n) 0 1 1 
RO =h 0 0 
X3(n) 1 0 











(4-101) 
X3(n-1) 
其 中 初始 条 件 X(1)=[1 1 01’。 
(c) 设 
0 1 1 
ah 0 o (4-102) 
0 1 0 
由 归纳 可 得 
X(n) = AX(n—1)= A?X(n —2) = = A”? X(1) (4-103) 


对 A 进行 特征 值 分 解 , 由 于 A 有 不 同 的 特征 值 , 则 可 写 为 A= UAU, RPA 
是 由 各 特征 值 构成 的 对 角 和 矩阵 。 因此，A”-!1= U1A”*-1U。 证 明 下 面 等 式 成 立 


X(n) = At bY, + ARTY, + A 1Y; (4-104) 

其 中 Yi, Y, Ys, 不 依赖 于 no 4n 充分 大 时 ,上 面 的 和 式 取决 于 最 大 项 。 证 明 ,对 
i=1,2,3, 有 

L logX;(n)—>logà (4-105) 


其 中 4 为 最 大 的 ( 正 ) 特 征 值 。 因 此 , 当 n BAR, 长 度 为 n 的 序列 个 数 以 X" 级 数 

增加 。 计 算 上 述 和 矩阵 A 的 值 。( 对 于 特征 值 不 完全 相 异 的 情形 , 问题 可 类 似 处 理 。) 

(d) 现 来 考虑 一 种 不 同 的 方法 。 假 定 一 个 马尔 可 夫 链 的 状态 转移 图 与 (a) 中 给 定 的 相同 ， 
但 其 转移 概率 可 任意 。 因 而 ,该 马尔 可 夫 链 的 概率 转移 矩阵 为 











0 1 0 
P=ia 0 1-a (4-106) 
1 0 0 
证 明 此 马尔 可 夫 链 的 平稳 分 布 是 
1 1 t-a 
v= 31s de (4-107) 


(e) 选择 a EBRR ERRARE. HERTRANRAKMRES LD? 





Ri puit ZE ág JA Æ 55 


4.18 


4.19 


4.20 


4.21 


4.22 





(f) HBR (e) PREAH SS (c) P logi 的 关系 。 为 什么 这 两 个 答案 相同 ? 

重 现时 间 关 于 分 布 的 不 敏感 性 。 设 Xo,X1,X,，… 为 i.i.d. 序列 且 服 从 p(x), 其 中 rE 
二 {1,2,…,m|。N 为 下 次 Xo 出 现 的 等 待 时 间 。 于 是 N= min, |X, = Xo}. 

(a) 证 明 EN=m。 


”(b) 证 明 ElogN<H(X). 


(o) ( 选 做 ) 当 { Xi 为 平稳 遍历 过 程 时 ,证 明 (a) 的 结论 。 

平稳 非 遍 历 过 程 。- 个 容器 里 装 有 两 枚 有 偏 的 硬币 ， 其 中 一 枚 出 现 正面 的 概率 为 p, 另 一 

枚 出 现 正面 的 概率 为 1 - p。 现 在 随机 选取 一 枚 硬币 ( 即 选取 概率 为 户 ), 然后 将 它 抛 据 n 

Ko BX 表示 选取 的 硬币 标识 ，Y1 和 Y 为 前 两 次 抛掷 的 结果 。 

(a) 计算 I(Y;; Y21X)。 

(b) 计算 I(X; Y1, Y2)o 

(c) RH) Y MEET MRED) OM. HHO). GA: 考虑 lim H(X, Yi， 
Yo5°7, Y,)) 


通过 考虑 p 一 二 的 情形 , 可 以 检验 你 的 答案 。 
图 上 的 随机 游 动 。 考 虑 如 下 的 随机 游 动 


2 


(a) 计算 平稳 分 布 。 

(b) BAB? 

(c) 假定 过 程 是 平稳 的 , 求 互 信息 I(X, ;1; X,)。 

棋盘 上 的 随机 游 动 。 一 个 王 在 3x3 棋盘 上 的 随机 游 动 是 一 个 马尔 可 夫 链 , 试 求 该 马尔 可 
AE HY AE 











1 2 3 
4 5 6 
7 8 9 





HR ESRB? 注意 , 相 有 两 种 类 型 。 

BARA. SROA 4 条 边 的 连通 图 上 的 随机 游 动 。 

(a) RS A Se A HE? 

(b) GIRS Fel 4H 8 BR)? 

三 维 迷 宫 。 一 只 小 鸟 在 3X3X3 的 立方 体 迷 宫 中 迷失 了 。 这 只 鸟 在 相互 邻接 的 房间 之 间 ， 
从 这 个 房间 穿 过 墙 飞 到 那个 房间 的 概率 是 相同 的 。 例 如 , 角落 边 的 房间 有 3 个 出 口 。 
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4.24 


4.25 


4.26 


4.27 


4.28 


(a) 平稳 分 布 是 什么 ? 
(b) 该 随机 游 动 的 箭 率 为 多 少 ? 
WME, HX, | APR, EA HCY). 
(a) 证 明 H(V)<H(X,). 
(b) 等 号 成 立 的 条 件 是 什么 ? 
i # HIX: AFRI, Y; = IX: Xal’ Z;= (Xais Xoia1), 设 V; = X2;0 考虑 过 程 
XR Y {ZA V A HX), HV), HZ) HY), KERR Z PE OT 
KERR, = 或 宇 ) 是 什么 ? 
(a) H(X)Z HQ). 
(b) H(¥)Z H(2)。 
(c) H(X)Z H(V). 
(d) H(Z)Z H(X)。 
单调 性 
(a) HEAR I(X; Y,, YY.) 随 )” 非 减 。 
(b) 在 什么 条 件 下 , 对 所 有 的 n, 互信 息 恒 为 常数 ? 
马尔 可 夫 链 中 的 转移 。 假 定 |X;| 构 成 不 可 约 马尔 可 夫 链 具有 转移 概率 矩阵 为 与 平稳 分 
布 。 若 持续 跟踪 转移 状态 ,就 会 形成 一 个 相关 联 的 “ 边 过 程 ”| Y;| (edge process)， 即 这 个 
Pile LY; | HEY XX LBA, B Y; = (X;-1,X;)。 例 如 ， 
X" =3,2,8,5,7,°° 
产生 
到 = (@,3), (3,2), (2,8), (8,5),(5,7) °° 
RA Y; | ASK 
We. BAX} 4H10,1 PRL, 满足 
Xr = XDX,-1 DZ, +1 
其 中 {2,| 服 从 Bernoulli( p), DRAB 2 WME. RHE H). 
过 程 的 混合 。 假 定 观测 两 个 随机 过 程 中 的 一 个 , 但 不 清楚 观测 到 的 是 哪 一 个 , ABA RE 
多 少 ? 具体 讲 ， 设 X11, X12, Xp, … 为 参数 是 Pi Ho (8 3 Al (Bernoulli) at #2, Xa» Xz, 
X2 H Bernoulli( p2) 过 程 。 设 


| 概率 为 b 
g= 
2 概率 为 t 
设 Y= Xa(i=1,2,…) 为 观测 到 的 随机 过 程 。 于 是 ，Y 是 过 程 {X1;1 或 {X2;| 的 观测 。 最 
终 ，Y 将 知道 观测 的 是 哪个 过 程 。 
(a) {Y;| 平 稳 吗 ? 
(b) 1Y;| 为 i.i.d. 过 程 吗 ? 
(c) 1Y BRR H 为 多 少 ? 
(d) 是 否 有 
-Tlogp( Y1, Ya Y,)>H? 
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(e) 是 否 存 在 一 个 码 , 使 它 能 够 达到 期 望 每 字符 描述 长 度 上 EL, 一 H? 


现在 , 设 0, 服从 Bemouli( 广 ) 。 我 们 观测 到 
Zi = Xoi, i=1,2,°° 


于 是 , 如 前 面 所 述 一 样 , 任何 时 候 9 都 没有 固定 , 但 这 里 每 次 是 依 i.i.d. 选取 的 。 对 


Fuel Z|, 请 回答 (a),(b),(c),(d),(e) 中 的 问题 , 相应 答案 标记 为 (a’),(b’)， 


(e), (d), (e’)。 


4.29 等 待 时间 。 设 X WHR ULE EA. Bln, Pr X= 3} = 
(LY. R s, 为 第 次 正面 出 现 的 等 待 时 间 。 于 是 


4.30 


4.31 


So =0 
Sn+1= Sp + 
其 中 Xi,X2,X3,… 为 服从 上 述 分 布 的 i.i.d 序 列 
(a) 过 程 {S.| 是 平稳 的 吗 ? 
(b) 计算 H(Si, S25, Sp)o 


Xe 


© 


(c) WEIS, | SAP EM? 如 果 存 在 , 它 是 多 少 ? 如 果 不 存 在 , 为 什么 ? 


(d) 如 果 通 过 抛掷 均匀 硬币 产生 一 个 分 布 与 S, 相同 的 随机 变量 , 那么 需要 的 期 望 抛 毛 次 


数 为 多 少 ? 
LRT KGB EE 

1 

2 

P=[P,]= 1 

1 

| 4 
BEX, 服从 状态 空间 10,1,21 上 的 均匀 分 布 ，{X 


P(X,41=51X, =i=PiijcEi0,1,21。 
(a) 1X, | 平稳 吗 ? 
(b) 求 limpa H(X, Xp) 


现在 考虑 下 面 诱导 出 的 过 程 Z1,Z2,… ,2Z。, 其 中 


Z =X, 

Z, = X, — X;-ı(mod 3),i=2, v, n 
FE, Z 编码 了 过 程 的 转移 , 并 不 是 状态 本 身 。 
(e) 求 H(Z1,22,…,2,)。 
(d) R H(Z,)M H(X,), n220 


(e) R H(Z,|Z, 1), n220 


(£) 对 n2, ZZ-1 和 Z, 相互 独立 吗 ? 


1 1 

4 4 

1 1 

2 4 

1 1 

4 2 
AY 为 马尔 可 夫 链 ,其 转移 矩阵 为 已 ， 即 


马尔 可 夫 链 。 设 | 成 | 一 Bemoulli(p), 我 们 考虑 与 之 相关 的 马尔 可 夫 链 | Y: o 其 中 Y= 
(当前 1 游程 中 数字 1 的 个 数 )。 例 如 , Æ X =101110---, WA Y" = 101230--- 


(a) 求 x" Ee 





100 


101 
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(b) 求 Y WAE., 
4.32 时 间 对 称 。 设 |X,} 为 平稳 马尔 可 夫 链 。 我 们 限定 在 已 知 (Xo, Xi ) 的 条 件 下 观察 过 去 和 将 
来 。 当 下 标 上 为 多 少时 , 有 
H(X_,,|Xo,X1) = H(X,| Xo, X1)? 
给 出 证 明 。 
4.33 REX, H XXX X, 构成 马尔 可 夫 链 。 证 明 
I(X1; X3) + I(X2; X) SI(X1; X4) + I(X2;X3) (4-108) 
4.34 广播 信道 。 设 X> Y>(Z, W) RSA RA HERR Z, y; Z, wW, p(z, y, z, w)= 
p(x)p(y|z)p(z,w|y) )。 证 明 
I(X;Z)+I(X;W)SI(X;Y)+I(Z;W) (4-109) 
4.35 第 二 定律 的 凹 性 。 设 1X,1>。 为 平稳 马尔 可 夫 过 程 。 证 明 HX, Xo) 关 于 n EN. RAE 
讲 , 请 证 明 
H(X, | Xo) — H(X, 1| Xo) — (H(X,-1| Xo) — H(X,-2| Xo0)) 
= — 1(X,;X,-1| Xo, X,) <0 (4-110) 
由 此 说 明 二 阶 差分 为 负 。 因 此 ，H(X,|Xo) 是 ”的 上 四 函数 。 
历史 回顾 


随机 过 程 的 炉 率 首先 是 由 香农 [472] 引 入 的 , 同时 他 也 论述 了 过 程 彤 率 与 过 程 产生 的 可 能 序 
列 数 之 间 的 关系 。 自 香农 以 后 , 从 信息 论 的 基本 定理 推广 到 一 般 的 随机 过 程 情形 , 已 经 有 了 许多 
研究 结果 。 在 第 16 章 中 , 我 们 给 出 了 一 般 平稳 随机 过 程 的 AEP 的 证 明 。 

隐 马 尔 可 夫 模 型 有 着 广泛 的 应 用 , 例如 语音 识别 [432]。 约 东 序 列 的 和 率 计算 是 由 香农 
[472] 引 入 的 。 这 样 的 序列 在 磁 信 道 和 光学 信道 中 有 所 应 用 [288]。 





第 5 章 数据 压缩 


本 章 通过 论述 信息 压缩 的 基本 临界 值 继续 关注 粹 的 定义 的 合理 性 。 通 过 对 数据 源 最 频繁 出 
现 的 结果 分 配 较 短 的 描述 , 而 对 不 经 常 出 现 的 结果 分 配 较 长 的 描述 , 可 达到 压缩 数据 的 目的 。 例 
如 , 在 莫 尔 斯 (Morse) 码 中 , 最 频繁 出 现 的 字符 用 单 点 表示 。 在 本 章 中 , 我 们 的 自 标 是 求 随机 变 
量 的 最 短期 望 描述 长 度 。 

我 们 首先 定义 即时 码 概 念 ,然后 证 明 非 常 重 要 的 Kraft 不 等 式 , 它 表 明码 字 长 度 相 应 的 指数 
值 类 似 于 一 个 概率 密度 函数 。 通 过 简单 的 演算 , 可 以 证 明 编码 的 期 望 码 长 必 大 于 或 等 于 炉 , 这 是 
本 章 最 为 重要 的 结果 。 然 后 , 由 香农 给 出 的 一 个 简单 构造 可 得 , 如 果 人 允许 元 余 描 述 , 那么 期 望 描 
述 长 度 可 以 渐 近 地 达到 炉 值 这 个 下 界 。 同 时 , 这 也 说 明 业 可 以 作为 有 效 描述 长 度 的 一 个 自然 度 
E. 著名 的 赫 夫 曼 编码 程序 提供 了 求解 最 小 期 望 描述 长 度 分 配 的 一 种 方法 。 最 后 , 我 们 证 明 赫 夫 
曼 编码 是 竞争 最 优 的 , 同时 也 证 明 , AT REMST H 的 随机 变量 的 一 个 样本 , 需要 抛掷 均匀 硬 
币 大 约 HK, FRE, PRESET FR, 也 等 于 生成 随机 数 所 需 的 比特 数 。 因 此 , 从 
许多 角度 来 讲 , TABU H 的 编码 都 将 是 最 优 的 。 


5.1 有 关 编 码 的 几 个 例子 


定义 ”关于 随机 变量 X 的 信 源 编码 C 是 从 X 的 取 值 空间 守 到 D* 的 一 个 映射 , 其 中 DD* 表示 
D 元 字母 表 DD 上 有 限 长 度 的 字符 串 所 构成 的 集合 。 用 C(z ) 表 示 z 的 码 字 并 用 L(z) 表 示 C(xz) 的 
长 度 。 ` 
例如 ，C( 红 )=00，C( 蓝 )=11 BY = { 红 , 蓝 | 关于 字母 表 D = (0, 1 的 一 个 信 源 编码 。 
EM BENTE X 的 概率 密度 函数 为 m(z), 定义 信 源 编码 C(z) 的 期 望 长 度 工 (C) 
(expected length) 为 
L(C) = Dy p(x)1(z) (5-1) 


其 中 ix) 表示 对 应 于 x 的 码 字 长 度 。 
不 失 一 般 性 , 可 假定 DD 元 字母 表 为 D= 10,1,…,D-1i。 
以 下 是 有 关 编 码 的 几 个 例子 。 
例 5.1.1 设 随 机 变量 X 的 分 布 及 其 码 字 分 配 如 下 : 


Pr(X=1)=4, BF C(1)=0 


Pr( X =2) =+, 码 字 C(2)=10 
(5-2) 


Pr(X=3)= 码 字 C(3)=110 


1 
8 kd 
Pr(X=4)= 诗 ， 码 字 C(4)=111 

易 知 X HORE X)29 1.75 比特 , 而 期 望 长 度 L(C) = EL(X) 亦 是 1.75 比特 。 此 处 , 我们 得 到 了 


一 个 期 望 长 度 正好 等 于 其 粹 值 的 编码 。 注 意 到 任何 一 个 比特 序列 都 可 以 惟一 地 解码 成 为 关于 X 
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中 的 字符 序列 。 例 如 ， 比 特 串 0110111100110 解码 后 为 134213。 
例 5.1.2 考虑 关于 随机 变量 编码 的 另 一 简单 例子 : 


Pr(X=1)= 3, HE C(1) =0 


Pr(X =2)= 码 字 C(2) = 10 (5-3) 


1 

7> 
Pr(X=3)=4, 码 字 C(3)=11 

正如 例子 5.1.1 那样 , 该 编码 也 是 惟一 可 译 的 。 但 这 里 箭 为 log3=1.58 比特 , 而 编码 的 期 望 长 度 
为 1.66 比特 , 即 此 时 EI(X)> H(X). 

例 5.1.3( 英 尔 斯 码 ) 莫 尔 斯 码 是 关于 英文 字母 表 的 一 个 相当 有 效 的 编码 方案 , 使 用 四 个 字 
符 的 字母 表 : 点 , 划 , 字母 间隔 和 单词 间隔 。 使 用 短 序列 表示 频繁 出 现 的 字母 (例如 , 用 单个 点 表 
RE), 而 用 长 序列 表示 不 经 常 出 现 的 字母 (例如 , Q 表示 为 “ 划 , BW, A, 划 ”)。 对 于 四 个 字符 的 
字母 表 来 说 , 这 并 非 最 佳 表示 。 事 实 上 , 依 此 方式 , 许多 可 能 的 码 字 未 被 使 用 , 因为 英文 字母 对 
应 的 码 字 除了 其 末尾 有 个 字母 间隔 外 , 再 无 别 的 间隔 。 在 这 样 的 限制 条 件 下 , 计算 满足 条 件 的 序 
列 个 数 是 一 个 很 有 趣 的 问题 。 香 农 在 1948 年 的 开创 性 论文 中 解决 了 这 个 问题 。 该 问题 也 与 磁 记 
录 的 编码 问题 有 联系 , 其 中 不 允许 出 现 一 些 长 串 的 0 ( 见 [5], [370])。 

下 面 我 们 逐步 对 编码 的 定义 条 件 作 进 一 步 的 限制 。 设 a 表示 (zl1,za，…,zo)。 

定义 ”如 果 编 码 将 X 的 取 值 空间 中 的 每 个 元 素 映 射 成 D* PRAMS, B 

ata >C(24)FC(z’) (5-4) 
则 称 这 个 编码 是 非 奇 异 的 (nonsigular)。 

非 奇异 性 可 以 保证 表示 X 的 每 个 值 的 明确 性 。 但 我 们 往往 需要 发 送 X 的 取 值 序列 。 对 此 ， 
通过 在 两 个 码 字 间 添 加 一 个 特殊 的 符号 (如 “逗号 ”), 可 以 确保 其 可 译 性 。 但 如 此 使 用 特殊 的 符 
号 会 降低 编码 的 效率 。 如 果 利 用 码 的 自我 间断 性 或 即时 码 的 思想 , 效果 会 更 好 。 受 发 送 X 的 字 
符 序列 需要 的 启发 , 我 们 定义 码 的 扩展 编码 如 下 : 

定义 ”编码 C 的 扩展 (extension)C* 是 从 上 的 有 限 长 字符 串 到 DD 上 的 有 限 长 字符 串 的 映射 ， 
定义 为 

Clazz tq) = Cr) Cr2) CCzn) ， (5-5) 
其 中 C(xz1)C(z2)… Cla, RAAF BR 

例 5.1.4 C(x) =00, Cla.) =11, 则 C(xziz2)=0011。 

定义 ”如果 一 个 编码 的 扩展 编码 是 非 奇异 的 , 则 称 该 编码 是 惟一 可 译 的 (uniquely decodable) 。 

换言之 , 惟一 可 译 码 的 任 一 编码 字符 串 只 来 源 于 惟一 可 能 的 信 源 字符 串 。 尽 管 如 此 ， 仍然 可 
能 需要 通 观 整个 编码 字符 串 , 才能 最 终 确 定 信 源 字符 串 。 甚至 有 时 对 于 确定 字符 串 中 的 第 一 个 
字符 , 我 们 也 必须 这 样 。 

定义 “车 码 中 无 任何 码 字 是 其 他 码 字 的 前 缀 , 则 称 该 编码 为 前 缓 码 (prefix code) 或 即时 码 
(instantaneous code) o 

由 于 何 时 结束 码 字 都 可 以 瞬时 辨认 出 来 , 因而 无 需 参考 后 面 的 码 字 就 可 译 出 即时 码 。 因 此 ， 
对 即时 码 来 讲 , 一 旦 分 配给 字符 x; 的 码 字 结束 ， 无 需 再 等 待 后 面 出 现 的 码 字 是 什么 , 就 可 立刻 译 
出 字符 过。 即时 码 是 一 个 自我 间断 码 ; 我 们 可 以 顺 着 编码 字符 序列 看 下 去 , 添加 逗号 将 码 字 分 隔 
F, 并 不 需要 观察 后 面 出 现 的 字符 。 例 如 , 例 5.1.1 中 的 编码 方案 所 产生 的 二 元 串 01011111010， 
我 们 可 将 它 分 解 成 0, 10, 111, 110, 10, 
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关于 码 的 这 些 定义 的 包含 关系 如 图 5-1 所 示 。 为 说 明 各 类 编码 之 间 的 不 同 之 处 , 考虑 如 下 的 
例子 , 其 zE 宗 的 码 字 分 配 情况 见 表 5-1。 在 表 5-1 中 , 对 于 非 
奇异 码 , FB 010 可 能 对 应 3 个 信 源 序列 : 2、14 或 31。 因 此 ， 
该 编码 不 是 惟一 可 译 的 。 表 中 的 惟一 可 译 码 并 非 是 无 前 级 的 ， 
因而 不 是 即时 码 。 为 说 明 它 是 惟一 可 译 码 , 考虑 任意 一 个 码 
ZR, 并 从 起 点 开始 着 手 。 如 果 起 始 两 位 是 00 或 10, 则 可 立 
刻 译 出 。 而 如 果 起 始 两 位 是 11， 则 还 得 看 接 下 来 的 位 上 的 数 
字 。 若 下 一 位 是 1, 则 可 知 第 一 个 信 源 字符 是 3。 若 紧 随 11 后 
不 是 于 而 是 由 0 组 成 的 数字 串 且 其 长 度 为 奇数 , 则 第 一 个 码 字 
必定 是 110, 因而 , 第 一 个 信 源 字符 只 能 为 4; 若 由 0 组 成 的 数 
字 串 的 长 度 为 偶数 , 则 第 一 个 信 源 字符 是 3。 重 复 以 上 讨论 ， 
可 知 该 编码 是 惟一 可 译 的 。 关 于 码 的 惟一 可 译 性 ，Sardinas 和 
Patterson[455] 已 设计 出 一 个 有 限 检 验方 法 , 其 主要 步骤 是 形 图 5-1 码 的 几 种 类 型 
成 所 有 码 字 的 可 能 后 缀 集 , 同时 系统 地 删除 它们 。 在 习题 
5.27 中 有 该 检验 方法 的 较为 完整 的 叙述 。 表 5-1 中 的 最 后 一 个 码 显然 是 即时 码 , 这 是 因为 所 有 
码 字 中 无 一 码 字 是 其 他 任 一 码 字 的 前 缀 。 


表 5-1 码 的 几 种 类 型 
惟一 可 译 ,但 不 是 即时 的 




















5.2 Kraft 不 等 式 


为 描述 一 个 给 定 的 信 源 , 我 们 的 目标 是 构造 期 望 长 度 最 小 的 即时 码 。 显 然 , 不 可 能 将 短 的 码 
字 分 配给 所 有 的 信 源 字符 而 仍 保持 是 无 前 缀 的 。 即 时 码 的 一 组 可 能 的 码 字 长 度 满足 如 下 不 等 式 。 

定理 5.2.1(Kraft REX) 对 于 吕 元 字母 表 上 的 即时 码 ( 前 组 码 ), 码 字 长 度 [1,12，…, lm 
必定 满足 不 等 式 

SID <1 (5-6) ee 

反之 ， 若 给 定 满足 以 上 不 等 式 的 一 组 码 字 长 度 , 则 存在 7 
一 个 相应 的 即时 码 ， 其 码 字 长 度 就 是 给 定 的 长 度 。 

证 明 : 考虑 每 一 节点 均 含 D 个 子 节点 的 刀 叉 树 。 
假定 树枝 代表 码 字 的 字符 。 例 如 , MERAH DA RYA 
树枝 代表 着 码 字 第 一 个 字符 的 DD 个 可 能 值 。 另外, 每 
个 码 字 均 由 树 的 一 片 叶 子 表示 。 因 此 , 始 于 根 节点 的 路 
径 可 描绘 出 码 字 中 的 所 有 字符 。 作 为 例子 , 对 于 二 又 
树 情形 如 图 5-2 所 示 。 码 字 的 前 缀 条 件 表明 树 中 无 一 
码 字 是 其 他 任 一 码 字 的 祖先 。 因 而 , 在 这 样 的 编码 树 
中 , 每 一 码 字 都 去 除了 它 的 可 能 成 为 码 字 的 所 有 后 代 。 图 52 关于 Kraft 不 等 式 的 编码 树 
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S /为 码 字 集中 最 长 码 字 长 度 。 考 虑 在 树 中 1,。。 层 的 所 有 节点 , 可 知 其 中 有 些 是 码 字 , 有 
些 是 码 字 的 后 代 , 而 另外 的 节点 既 不 是 码 字 , 也 不 是 码 字 的 后 代 。 在 树 中 7; 层 的 码 字 拥有 Lae 
中 的 Dim 个 后 代 。 所 有 这 样 的 后 代 集 不 相交 。 而 且 , 这 些 集合 中 的 总 节点 数 必 定 小 于 或 等 于 
D=, Alb, 对 所 有 码 字 求 和 , 则 可 得 
>) D're << D'e (5-7) 
或 
EDI (5-8) 
这 就 是 Kraft 不 等 式 。 
反之 , 若 给 定 任意 一 组 满足 Kraft 不 等 式 的 码 字 长 度 11,7,，,…, 1， 总 可 以 构造 出 如 图 5-2 所 
示 的 编码 树 。 将 第 一 个 深度 为 L 的 节点 ( 依 字典 序 ) 标 为 码 字 1, 同时 除去 树 中 属于 它 的 所 有 后 
代 。 然 后 在 剩余 的 节点 中 找 出 第 一 个 深度 为 22 的 节点 , 将 其 标 为 码 字 2, 同时 除去 树 中 所 有 属于 
它 的 所 有 后 代 , 等 等 。 按 此 方法 继续 下 去 , 即 可 构造 出 一 个 码 字 长 度 为 11 ,1,,…, 1; ORB. 
口 
下 面 我 们 证 明 无 限 前 缀 码 仍 然 满足 Kraft 不 等 式 。 
定理 5.2.2( 推 广 的 Kraft 不 等 式 ) 对 任意 构成 前 缓 码 的 可 数 无 限 码 字 集 ， 码 字 长 度 也 满足 
推广 的 Kraft 不 等 式 。 


Sp" <1 (5-9) 
反之 , 若 给 定 任意 满足 推广 的 Kraft 不 等 式 的 11 ,1,,…， 则 可 构造 出 具有 相应 码 长 的 前 级 码 。 


证 明 : 不 妨 设 D 元 字母 表 为 [0,1,…,D 一 1}, Bi NBER yo WO. UD 
进 制 表示 的 实 值 小 数 ， 即 


L; 


0. yiya, = DD? (5-10) 


jet 


由 此 ,这 个 码 字 对 应 于 一 个 区 间 
[0c yry2 yp 0. 31920, +5) (5-11) 
这 是 一 个 实数 集合 ,集合 中 所 有 实数 的 D 进 制 表示 都 以 Oyy nF A 
[0, 了] 的 子 区 间 。 同 时 由 前 绥 条 件 可 知 , 所 有 这 些 区 间 均 不 相交 。 因 而 ,它们 的 区 间 长 度 总 和 小 
于 或 等 于 1。 至 此 证 明了 
> D'<1 (5-12) 
正如 有 限 情形 ， 只 需 沿 着 上 述 证 明 的 相反 思路 进行 , 即 可 构造 出 码 长 为 ,12,… 且 满足 
Kraft 不 等 式 的 编码 。 首 先 将 长 度 下 标 重新 排列 , 使 得 11<1,<…。 然 后 从 单位 区 间 的 低 端 开始 ， 
依次 将 单位 区 间 进 行 分 配 , 即 可 获得 满足 条 件 的 码 字 集 。 例 如 ,如 果 想 构造 一 个 二 元 编码 使 其 具 
有 4=1,42=2,…, BA, WREE), [FA ARAR, 使 其 对 应 码 字 0, 10, … O 
在 5.5 节 中 证 明 惟 一 可 译 码 的 码 字 长 度 亦 满足 Kraft 不 等 式 。 而 在 这 之 前 , 先 来 考虑 如 何 求 
解 最 短 即时 码 的 问题 。 
5.3 最 优 码 


在 5.2 节 中 已 经 证 明了 满足 前 缀 条 件 的 任何 一 个 码 字 集 合 满足 Kraft 不 等 式 , 并 且 当 一 组 码 
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字 长 度 集合 满足 Kraft 不 等 式 时 , 存在 这 样 的 码 字 集 , 它们 的 长 度 集合 正好 就 是 给 定 的 长 度 集合 。 
下 面 考虑 求解 前 缀 码 的 最 小 期 望 长 度 问 题 。 由 5.2 节 的 结果 , 该 问题 等 价 于 求解 满足 Kraft 不 等 
式 的 长 度 集合 L1 ,1,,…, 1， 使 得 它 的 期 望 长 度 L= 2 pl, 不 超过 其 他 任何 前 缀 码 的 期 望 长 度 。 
这 是 一 个 标准 的 最 优化 问题 : 在 所 有 整数 1 ,12，…, E, 最 小 化 

L= > pd; (5-13) 
其 约束 条 件 为 

SD ‘<l (5-14) 

先 利用 微 积 分 知识 作 个 简单 的 分 析 ,， LAA BME 27 应 具有 的 形式 。 取 消 2 必须 

是 整数 的 限制 , 并 假定 约束 条 件 中 的 等 号 成 立 。 于 是 , 利用 拉 格 朗 日 (Lagrange) 乘 子 法 , 将 带 约 
束 的 最 小 化 问题 转化 为 求 


J= 忆 ji+A(YDD 4) (5-15) 
的 最 小 化 问题 。 关 于 1; 求 微分 , 可 得 
2L = p; — AD~ Mlog.D (5-16) 
令 偏 导数 为 0, 得 
-; __ Pi 
Dig gD (5-17) 
将 此 代入 约束 条 件 中 以 求 得 合适 的 4, AG A=1/0gD, 因而 
p=D (5-18) 
即 最 优 码 长 为 
1? = ~ logpp; (5-19) 
若 可 以 取 码 字 长 度 为 非 整数 , 则 此 时 的 期 望 码 字 长 度 为 
L* =Dpd? = — dip; logpp; = Hp(X) (5-20) 


但 事实 上 , 7; 必须 是 整数 ， 因 而 码 字 长 度 不 可 能 总 设置 成 如 式 (5-19) 的 形式 。 相 反 , 应 该 选 
择 相应 的 码 字 长 度 /; 所 成 的 集合 “接近 于 ”最 优 集 。 在 下 面 的 定理 中 , 将 直接 证 明 最 优 性 , 而 不 再 
是 通过 微 积分 知识 来 说 明 1} = -logpp; 是 使 目标 达到 全 局 最 小 化 的 参数 值 。 

定理 5.3.1 随机 变量 义 的 任 一口 元 即时 码 的 期 望 长 度 必定 大 于 或 等 于 炉 Hp(X)， 即 

L>H)(X) (5-21) 
当 且 仅 当 D h= p;, 等 号 成 立 。 
证 明 : 我 们 将 期 望 长 度 与 粹 的 差 写 成 如 下 形式 


L-H,(X)=Dipd;- S plogo + (5-22) 
= — X plogpD~ "+ È pilogpp: (5-23) 


Br, = D/D, c=EDL, AFT RAASE APE c 委 1( 利 用 Kraft 不 等 式 ), 可 得 
L-H =D pjlogp 在 ~ logre (5-24) 


= D(p || r) + logp 1 (5-25) 
>0 (5-26) 


111 
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因此 , LH, SERS p= DINAR i, — logo: ABM), 等 号 成 立 。 CI 

定义 ”对 于 某 个 n, 如 果 概 率 分 布 的 每 一 个 概率 值 均等 于 Do", WRI TRS AE D i 
制 的 (D-adic)。 因 此 , 当 且 仅 当 X 的 分 布 是 DD 进 制 的 ， 上述 定 理 等 号 成 立 。 

上 面 的 证 明 过 程 同时 也 提供 了 寻求 最 优 码 的 程序 ; 找到 与 X 的 分 布 最 接近 的 万 进 制 分 布 (在 
相对 炉 意 义 下 )。 由 该 D 进 制 分 布 可 提供 一 组 码 字 长 度 。 然后 , 选取 首次 达到 的 节点 (按照 Kraft 
不 等 式 证 明 过 程 中 的 方法 ), 构造 出 该 编码 。 这 样 ,获得 一 个 关于 X 的 最 优 码 。 

但 要 实现 这 个 程序 并 非 易 事 , 因为 要 搜索 出 与 X 的 分 布 最 接近 的 DD 进 制 分 布 并 不 显然 。 在 
下 一 节 中 , 我 们 会 给 出 一 个 次 优 的 程序 (香农 - 费 诺 编码 )。 在 5.6 节 中 ，, 我 们 将 叙述 实际 中 寻找 
最 优 码 的 一 个 简单 程序 ( 赫 夫 曼 编 码 )。 


5.4 最 优 码 长 的 界 


现在 证 明 期 望 描述 长 度 的 取 值 范围 在 其 下 界 与 下 界 加 1 比特 之 间 ， 即 
H(X)SL<H(X)+1 (5-27) 
回忆 5.3 节 中 的 问题 : ME L= Spd, RARE Lsls ln WMA UD <1. 
我 们 已 证 明 : 通过 求 相 对 炳 意义 下 最 接近 于 X 分 布 的 D 进 制 概率 分 布 , 即 通过 最 小 化 
L- Hp= D(p|l r) — log( 2D") 20 (5-28) 


求 得 D 进 制 的 r(r; = D'/ QDS), ROK. BKR 1; = logy 7. 有 L = He 
由 于 logp 六 未 必 为 整数 , 则 通过 取 整 运算 ,就 可 以 给 出 整数 码 字 长 度 的 分 配 ， 


L= | logp 1 | (5-29) 
其 中 [x RRS 的 最 小 整数 。 这 组 整数 满足 Krit PER, 因为 


Sp 3 Dp = Vp, =1 (5-30) 
如 此 选取 的 码 字 长 度 满足 
logp 六 Si<logp + +1 (5-31) 
在 上 式 中 乘 p, HARA i 求 和 , 可 得 
Hp(X)<L<Hp(X) +1 (5-32) 


由 于 只 有 最 优 码 比 该 编码 更 优 , 从 而 有 如 下 定理 。 | 
定理 5.4.1 KU yl, RATER pH—P DAFFA- ARRAK, LA 
最 优 码 的 相应 期 望 长 度 (L* = 小 pA? ), 则 


Hp(X)<L* <Hp(X)+1 (5-33) 

证 明 : 设 1,=[ logo E |, 则 满足 Kraft 不 等 式 且 由 式 (5-32) 可 知 
Hp(X)SL =$ pd;< Hp(X) +1 (5-34) 
但 由 于 二 * 是 最 优 码 的 期 望 长 度 , 它 不 大 于 L= Spl. RHEA S.3.1 可 知 L* 之 Ho。 定 理 得 
到 证 明 。 m 


EM 5.4.1A, RO KK, 但 不 会 超出 1 比特 的 附加 位 ,这 是 由 于 
logp 六 并 非 总 是 整数 造成 的 。 通过 扩展 , 对 多 字符 进行 分 组 编码 可 以 缩减 这 个 每 字符 附加 位 。 





数据 压缩 65 





根据 这 一 思路 , 考虑 序列 发 送 系统 , 其 中 的 序列 都 是 来 自 于 X 的 ”个 字符 。 假 定 序 列 中 的 字符 
是 i.i.d. 服从 pla), 此 时 可 将 这 个 字符 看 成 是 字母 表 X" 中 的 超 字符 。 

定义 L, 为 每 输入 字符 期 望 码 字 长 度 , 也 就 是 说 , 如果 设 (1, zx2，… ,x ES (21, 2，…， 
x) 相应 的 二 进 制 码 字 长 度 (为 简便 起 见 , 在 本 节余 下 的 部 分 中 , 假定 D=2), W 


Lg = Dp ayo ras zo) (zis x2s sy) = PEUX X25 Xp) (5-35) 
将 上 面 推导 的 界 应 用 于 此 时 的 编码 ,有 
HXi, X25, Xp) KEI(X X25, X )< H(X, Xp Xa) +1 (5-36) 


由 于 XX2 X, Æ iid., 因此 H(X,,X2,°°,X,) = DH(X,) = nH(X)。 将 式 (5-36) 两 边 同 
RL n, 得 


H(X)<L,<H(X) +4 (5-37) 


因此 , 通过 使 用 足够 大 的 分 组 长 度 , 可 以 获得 一 个 编码 , 可 以 使 其 每 字符 期 望 码 长 任意 地 接近 
W. 
即使 随机 过 程 不 是 i.i.d. 的 , 对 来 自 该 随机 过 程 的 字符 序列 也 可 作 同 样 的 讨论 , 此 时 仍然 有 
界 
H(X, X230, Ka) EEL XI, Xa, Xa) < HE(X XXX)+L (5-38) 
同样 将 上 式 两 边 同 除 以 n, 且 定 义工 为 每 字符 期 望 描述 长 度 , 可 得 
(XXX ) H(X, X25, Xp) 1 
i 7 <L, 1 2 += (5-39) 
如 果 随 机 过 程 是 平稳 的 , 则 HCX,,X2.°°,X,) n> H(X), 4n- ont, 每 字符 期 望 描 述 长 度 趋 
于 焙 率 。 于 是 ， 可 得 如 下 的 定理 : 
定理 5.4.2 每 字符 最 小 期 望 码 字 长 满足 
H(X1, X,,…, Xp) 
n 





再 (XXX 和 
<L? < BOO Na Me) + 上 上 (5-40) 


n 
进一步 , 若 XX, X, 是 平稳 随机 过 程 ， 则 
L*—H(X) (5-41) 

KP HX) AMP HE, 

WEE UBS OBE, ERE RET RTH: 它 是 最 简洁 描述 该 过 程 所 需 的 每 
字符 期 望 比特 数 。 

最 后 讨论 当面 对 的 对 象 是 非 真 实 分 布 时 , 期望 描述 长 度 会 变 得 怎样 ? 例如 , 非 真实 分 布 可 能 
是 我 们 要 了 解 的 未 知 真实 分 布 的 一 个 最 佳 估计 。 下 面 考虑 概率 密度 函数 g(z) 的 香农 编码 ,相应 


的 码 长 为 I=] ezis | 。 假 定 真实 分 布 的 概率 密度 函数 是 p(x). Iet, 不 可 能 有 期 望 码 
长 LH(p)= -~ 并 p(xz)logp(zx)。 我 们 将 证 明 , 由 于 不 正确 的 分 布 所 引起 的 期 望 描述 长 度 的 增 
加 值 等 于 相对 精 D(p | g)。 于 是 , D(p | 9) 可 具体 解释 为 由 于 使 用 不 正确 的 信息 而 引起 的 描述 
性 复杂 度 的 增加 量 。 

定理 5.4.3( 偏 码 ,wrong code) 码 字 长 度 分 配 (xz) = | log 让] | 关于 p(x) 的 期 望 码 长 


满足 
H(p)+D(p ll g) SEZ(X)<H(p)+D(pllg)+1 (5-42) 


ww 


A 
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证 明 : 期 望 码 长 为 

E 1 
EI(X) = > pz)| log stz) | (5-43) 

1 
< Dele) (toe ses +1) (5-44) 

_ pla) 1 

= > p(x )log Ppa +1 (5-45) 
= Ve x)low BE + Vel x)loe $755 +1 (5-46) 
=D(p |lq)+H(p)+1 (5-47) 
类 似 地 , 可 以 得 到 期 望 码 长 的 下 界 。 i= 


于 是 , 若 真实 分 布 为 p(x), 而 编码 使 用 的 是 非 真实 分 布 q), 则 会 导致 期 望 描述 长 度 增加 
D(pl a)。 


5.5 惟一 可 译 码 的 Krat 不 等 式 


前 面 已 证 明了 即时 码 必 然 满足 Kraft 不 等 式 。 而 惟一 可 译 码 类 包含 所 有 即时 码 。 因 此 ,如果 
在 所 有 的 惟一 可 译 码 中 将 码 字 长 度 L 最 小 化 , 那么 有 希望 得 到 一 个 更 小 的 期 望 码 长 。 在 本 节 中 ， 
我 们 要 证 明 , 如 果 从 码 字 长 度 集合 考虑 , 惟一 可 译 码 不 可 能 提供 比 即 时 码 更 进一步 的 结果 。 在 此 
给 出 Karush 对 如 下 定理 的 一 个 漂亮 证 明 。 

定理 5.5.1(McMillan) 任意 惟一 可 译 的 中 元 码 的 码 字 长度 必然 满足 Kraft 不 等 式 

EDE (5-48) 

反之 ,车 给 定 满足 上 述 不 等 式 的 一 组 码 字 长 度 , 则 可 以 构造 出 具有 同样 码 字 长 度 的 惟一 可 译 码 。 

证 明 : 考虑 编码 C 的 & 次 扩展 C( 即 原先 惟一 可 译 码 C 的 & 次 串联 所 形成 的 码 )。 由 惟一 可 
译 性 的 定义 , 该 码 的 次 扩展 是 非 奇 异 的 。 由 于 所 有 长 度 为 n HARD 元 捉 的 数目 仅 为 D", ik 
由 惟一 可 译 性 可 知 , 在 码 的 次 扩展 中 , 长 度 为 n 的 码 序 列 数目 必定 不 超过 D"。 由 此 讨论 来 证 
明 Kraft 不 等 式 。 

BER xzE 守 所 对 应 的 码 字 长 度 记 为 !((z)。 对 于 扩展 码 , 码 序列 的 长 度 为 


Irita) = 2 (xi) (5-49) 
我 们 要 证 明 的 不 等 式 为 
>) DIO <1 (5-50) 
zE 
证 明 的 技巧 就 是 考虑 上 式 左 边 量 的 上 次 宕 。 于 是 , 由 式 (5-49) 可 得 
(> pois)" 一 >) 5 >) DYED poi Da) (5-51) 
xe X LEXE EX 
= 5 DED pola poe) (5-52) 
PEAS 
= pe) (5-53) 
rex" 
现 将 上 式 中 的 各 项 按 码 字 长 度 合并 同类 项 , 可 得 
Sp) = Y alm) D” (5-54) 
ÅER’ m= 


其 中 Li 表示 码 字 长 度 的 最 大 值 , a(m) 表 示 所 有 m 长 码 字 对 应 的 信 源 序列 x 的 数目 。 但 是 , 由 
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于 原 编码 是 惟一 可 译 的 , 从 而 对 于 每 个 mx 长 码 字 序 列 , 至 多 存在 一 个 信 源 序列 与 其 对 应 ， 故 而 
至 多 存在 D” 个 m 长 的 序列 。 因 此 a(m)<D", 从 而 有 


(Spey = Salm) D” (5-55) 
< > Dp” (5-56) 
= Rl ox (5-57) 
所 以 
DD < (klm) (5-58) 


由 于 上 述 不 等 式 对 任意 的 均 成 立 , A Roomy, KERDREL MAW kma) 1, 可 
得 


D4 <1 (5-59) 

此 即 是 Kraft RSX 
RZ, 若 给 定 满足 Kraft 不 等 式 的 一 组 LisL2 ,Lm 正如 5.2 节 中 所 证 明 的 ， 可 以 构造 出 相 
应 的 即时 码 。 由 于 任何 即时 码 都 是 惟一 可 译 的 , 因而 也 构造 出 了 惟一 可 译 码 。 口 


推论 ”无限 信 源 字母 表 光 的 惟一 可 译 码 亦 满足 Krat 不 等 式 。 

证 上 明 : 对 于 无 限 值 | 芋 | ， 上 述 证 明 方 法 不 再 适用 之 处 在 于 式 (5-58), 这 是 因为 对 于 无 限 编码 ， 

wax 为 无 穷 大 。 但 只 需 对 上 述 证 明 做 个 简单 的 修正 , 此 推论 的 证 明 即 可 完成 。 由 于 惟一 可 译 码 的 
pi 子 集 仍 为 惟一 可 译 码 , 因此 , 无 限 码 字 集 的 有 限 子 集 亦 满足 Kraft 不 等 式 。 故 


yD = Im <1 (5-60) 
给 定 满足 Kraft 不 等 式 的 一 一 组 码 字 长 度 Lolz” ,由 5.2 节 可 以 构造 出 相应 的 即时 码 。 由 于 即时 
码 是 惟一 可 译 的 ， 因此 已 构造 出 具有 无 限 个 码 字 的 愉 一 可 译 码 。 因 而 ,McMillan 定理 对 无 限 字母 
表情 形 亦 成 立 。 口 


上 面 的 定理 蕴涵 着 一 个 相当 令 人 震惊 的 结果 : 从 码 字 长 度 集 的 角度 考虑 , 惟一 可 译 码 类 不 能 
提供 比 前 级 码 类 更 优 的 选择 。 对 惟一 可 译 码 与 即时 码 而 言 , 码 字 长 度 集 是 一 样 的 。 因 而 ，, 当 将 允 
许 的 编码 拓展 到 惟一 可 译 码 类 的 范畴 , 前 面 所 得 的 关于 最 优 码 字 长 度 的 界 的 结果 仍然 是 成 立 的 。 


5.6 赫 夫 曼 码 


关于 给 定 分 布 构造 最 优 (最 短期 望 长 度 ) 前 缀 码 , 赫 夫 曼 [283] 给 出 了 一 个 简单 的 算法 。 我 们 
将 证 明 , 对 于 相同 信 源 字母 表 的 任意 其 他 编码 , 不 可 能 比 赫 夫 曼 算法 所 构造 出 的 编码 具有 更 小 的 
期 望 长 度 。 在 给 出 任何 正式 的 证 明之 前 , 先 通 过 几 个 例子 介绍 一 下 A 

例 5.6.1 考虑 一 个 随机 变量 X, 其 取 值 空间 为 = 11, 2, 3, 4, 51, 对 应 的 概率 分 别 是 
0.25, 0.25, 0.2, 0.15 和 0.15。 为 获得 X 的 一 个 最 优 二 元 码 ， ei a knee amine 4 和 
5。 这 两 个 码 字 长 度 必 定 相等 ， 否 则 若 将 这 两 个 码 字 中 较 长 码 字 的 最 后 1 MARR, 仍 可 得 到 一 个 
前 级 码 , 但 此 时 期 望 长 度 变 短 了 。 一 般 地 , 我 们 可 以 将 该 编码 构造 成 为 其 中 的 两 个 最 长 码 字 仅 差 
最 后 一 位 有 所 不 同 。 对 于 这 样 的 编码 , 可 将 字符 4 和 5 组 合成 单个 信 源 字符 , 其 相应 的 概率 值 为 
0.30。 按 此 思路 继续 下 去 , 将 两 个 最 小 概率 的 字符 组 合成 一 个 字符 , 直至 仅 剩 下 一 个 字符 为 止 ， 
然后 对 字符 进行 码 字 分 配 , 最 终 我 们 得 到 如 下 的 表格 : 
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码 字 长 度 B F X 概 率 

2 01 1 0.2 0.3 0.4 0.5571 
2 10 2 0.25 0.25 0.3 0.45 

2 11 3 0.2 0.2 0.25 

3 000 4 0.15 0.2 

3 001 5 0.15 


上 述 编码 的 期 望 长 度 为 2.3 比特 。 

例 5.6.2 考虑 上 例 中 随机 变量 的 三 元 码 。 现 在 将 三 个 最 小 概率 的 字符 组 合成 一 个 超 字符 ， 
得 到 如 下 的 表格 : 

ag = 

1 

2 

00 

01 

02 

此 时 的 编码 期 望 长 度 为 1.5 BRE (ternary digit). 

例 5.6.3 如 果 D23, 信 源 字符 数目 可 能 不 充足 ， 以 至 于 不 能 每 次 总 可 以 将 DD 个 字符 组 合 
起 来 。 在 此 情形 下 , 可 添加 虚拟 字符 并 将 其 放置 在 原 字符 集 的 最 后 面 。 虚 拟 字符 的 概率 为 0 Hi 
人 后 可 填 满 一 棵 树 。 由 于 在 每 一 次 简化 过 程 中 , 字符 数 均 减 少 -1 个 , 而 要 求 字 符 的 总 数 是 1 
+k(D-1), 其 中 & 为 树 的 深度 。 因 而 ,需要 添加 足够 多 的 虚拟 字符 , 使 字符 总 数 恰好 为 1+ 
k(D- 1) Sgn: 





Wm w n | be 
S090909 
一 -NNN 
NY 
Soo 
NN A 
\ 
= 








码 F X 概 K 

1 1 0.25 一 一 0.25 0.5 1.0 
2 2 0.25 一 一 0.25 0.25 J 

01 3 0.2 0.2 0.25 

02 4 0.1 02 

000 5 0.1 0.1 

001 6 0.1 

002 虚拟 符 0.0 





此 时 编码 的 期 望 长 度 为 1.7 铁 特 。 
对 赫 夫 曼 编 码 的 最 优 性 在 5.8 节 中 给 予 证 明 。 


5.7， 有 关 赫 夫 曼 码 的 评论 


1. 信 源 编码 与 20 问题 游戏 的 等 价 性 。 先 暂时 离开 主题 , 讨论 一 下 信 源 编码 与 “20 问题 "游戏 
的 等 价 性 。 假 定 要 设计 一 套 最 有 效 的 是 否 型 问题 以 便 从 目标 群 中 识别 出 其 中 一 个 目标 。 
假设 目标 的 概率 分 布 已 知 , 那么 是 否 能 找到 最 有 效 的 问题 序列 ? (为 了 识别 一 个 目标 , 必 
须 保 证 该 问题 序列 能 够 将 一 个 目标 从 一 群 可 能 的 目标 中 惟一 地 区 分 出 来 , 最 后 一 个 问题 
的 答案 不 必要 求 一 定 为 "是 ”。) 

为 此 , 首先 说 明 这 样 一 系列 提问 方案 等 价 于 一 个 目标 编码 。 在 该 提问 过 程 中 ， 当 前 
所 要 提出 的 问题 仅 依赖 于 前 面 提出 的 若干 问题 的 答案 而 定 。 由 于 答案 序列 惟一 确定 该 目 
标 , 因而 所 有 目标 对 应 着 不 同 的 答案 序列 。 并 且 , 如 果 用 0 表示 “是 ”, 用 1 表示 “ 否 ”, 那 
么 可 获得 目标 集 的 一 个 二 元 码 。 该 编码 的 期 望 长 度 即 是 提问 方案 所 需 的 期 望 问题 数 。 

反之 , 若 给 定 目标 集 的 一 个 二 元 编码 , 可 以 求 得 与 该 编码 相对 应 的 问题 序列 , 使 其 期 
望 问题 数 等 于 编码 的 期 望 码 长 。 如 提问 方案 中 的 第 一 个 问题 是 :“ 目 标的 对 应 码 字 的 第 一 
位 是 1 吗 ?” 
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HS RK S SEES RRS, 因而 最 优 的 问题 系列 可 由 赫 夫 曼 编 码 来 
确定 。 在 例 5.6.1 F, 最 优 的 第 一 个 问题 是 “X 等 于 2 或 3 吗 ?” 对 此 问题 的 回答 可 确定 赫 夫 
曼 编 码 的 第 一 位 。 假 定 第 一 个 问题 的 回答 是 “对 ”, 那 下 一 个 问题 应 该 是 “X=3 AA 
定 码 的 第 二 位 。 然 而 , 并 不 需要 等 待 给 出 第 一 个 问题 的 答案 之 后 再 问 第 二 个 。 对 于 第 二 
问题 , 可 以 是 “X 等 于 1 或 3 吗 ?”, 它 独立 于 第 一 个 问题 ， AAT NER RD APIS. 
在 最 优 的 提问 方案 中 , HB EQ 满足 
H(X)<E Q<H(X)+1 (5-61) 
2. WHA FOARA, BEE pl; 的 赫 夫 曼 算法 其 实 对 任意 一 组 p50 都 是 成 立 的 , 而 无 
ABELA 的 大 小 。 此 时 , 赫 夫 曼 编 码 算法 最 小 化 的 是 码 长 加 权 和 2 w, 而 非 平均 码 长 。 


例 5.7.1 利用 相同 的 算法 , 可 对 加 权 情 形 进行 最 小 化 


码 F 
00 


权 Ë 

5 LAT 

10 4 5 . 

11 4 ` 

在 此 情形 下 , 该 编码 使 得 码 长 加 权 之 和 最 小 化 , 且 码 长 加 权 和 的 最 小 值 为 36。 

3. 赫 夫 受 编 码 与 “切片 ”问题 (字母 码 )。 我 们 已 经 说 明了 信 源 编码 与 20 问题 游戏 的 等 价 性 。 
对 于 给 定 的 随机 变量 , 最 优 问题 序列 对 应 于 一 个 最 优 的 信 源 编码 。 然 而 , 由 赫 夫 曼 编 码 确 
定 的 最 优 问题 方案 要 求 对 于 任 一 问题 , 存在 某 个 集合 ACI1,2,---,m}, 使 该 问题 具有 形式 
“XEA fg” 

下 面 考虑 的 “20 问题 "游戏 的 问题 集 是 带 约束 的 。 具 体 讲 , BEX = 11,2,---,m | PY 
元 素 降序 排列 为 p> p> Sp, 并 且 要 求 所 有 的 提问 只 能 是 惟一 形式 “XX>a 吗 ?”, 其 
中 a 是 某 个 数 。 由 赫 夫 曼 算法 所 构造 出 的 赫 夫 曼 编码 可 以 不 与 切片 集 ( 形 如 {zx:z<aj 的 集 

“ 合 ) 相 对 应 。 如 果 选 取 由 赫 夫 曼 编 码 所 得 到 的 码 字 长 度 (由 引 理 5.8.1 知 USSL), 

并 且 用 它们 来 分 配 字符 到 编码 树 上 , 使 得 每 个 码 长 对 应 着 编码 树 的 一 个 层 ,在 对 应 的 层 上 ， 
将 首 达 节点 处 标示 上 对 应 的 字符 , 由 此 方法 可 构造 出 另 一 个 最 优 码 。 Ri SRSA 
同 的 是 , 该 编码 是 一 个 切片 码 (slice code), 这 是 因为 与 此 最 优 码 等 价 的 最 优 问题 方案 中 的 每 
个 问题 (对 应 该 码 的 一 位 ) 将 该 树 分 裂 成 一 系列 |z:z>al 与 1z:z<ai 的 集合 形式 。 

下 面 用 一 个 例子 来 说 明 这 点 。 
例 5.7.2 考虑 例 5.6.1。 可 知 由 蔡 夫 曼 编 码 程序 所 构造 出 的 赫 夫 曼 码 并 不 是 切片 码 。 
但 车 使 用 由 苗 夫 有 曼 编 码 程 序 获 得 的 码 字 长 度 , 即 12,2,2,3,3|， 同时 将 相应 字符 分 配给 编 
码 树 中 相应 层 的 首 达 节点 , 就 可 得 到 随机 变量 的 如 下 编码 : 

”100 ,2 一 01 ,3 一 10 ,4 一 110 ,3 一 111 

可 以 证 明 上 述 编码 是 个 切片 码 。 由 于 码 字 是 按 字母 序 排列 的 ， 故我 们 将 这 类 片段 码 称 作 
字母 码 (alphabetic code)。 


4. 吉大 曼 编码 与 香农 码 。 对 于 菜 个 特定 的 字符 ,使 用 码 长 为 | low 二 nemne 
可 能 比 最 优 码 更 差 。 例 如 ,考虑 两 个 字符 , 其 中 一 一 个 发 生 的 概率 为 0.9999 而 另 一 个 为 
0.0001。 若 使 用 码 字 长 度 | log 十 |, 则 意味 着 它们 的 码 长 分 别 为 1 比特 和 14 比特 。 然 


”而 这 两 个 字符 的 最 优 码 长 都 是 1 比特 。 因 而 , 在 香农 编码 中 , 不 经 常 发 生 的 字符 的 码 字 
长 度 一 般 比 最 优 码 的 码 字 更 长 。 
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最 优 码 的 码 字 长 度 总 是 小 于 等 于 | logt | 吗 ? 下 面 的 例子 可 说 明 该 问题 并 不 总 是 
对 的 。 

例 5.7.3 设 随机 变量 X WANA (I,E, ,十 )。 替 夫 曼 编码 程序 产生 的 码 字 长 度 
为 (2,2,2,2) 或 (1,2,3,3)( 依 赖 于 概率 合并 的 选取 , 读者 可 以 自行 验证 (见习 题 5.12))。 这 


两 个 码 的 期 望 码 字 长 相同 。 对 第 二 个 编码 其 第 3 个 字符 的 长 为 3, 比 | gt | 大 。 因 此 ， 


香农 码 中 某 个 字符 的 码 字 长 可 能 小 于 最 优 ( 替 夫 曼 ) 编 码 中 的 相应 字符 的 码 字 长 。 这 个 例子 
也 说 明了 一 个 事实 , 即 最 优 码 的 码 字 长 集合 并 不 惟一 (可 能 存在 1 个 以 上 的 具有 相同 期 望 
值 的 码 长 集 )。 

对 于 单个 字符 来 说 , 不 论 是 香农 码 还 是 赫 夫 曼 码 都 可 能 有 更 短 的 码 字 长 度 , 但 从 平 
均 意 义 上 讲 , 只 有 赫 夫 曼 编码 具有 更 短 的 期 望 长 度 。 另 外 , 从 期 望 码 长 衡量 , CREAMS 
夫 曼 码 的 差别 不 超过 1 比特 (这 是 因为 两 者 的 平均 码 长 均 在 互 和 五 +1 之 间 )。 

5. 费 诺 编码 。 费 诺 提 出 了 构造 信 源 编码 的 一 个 次 优 程序 , 类 似 于 切片 码 的 思想 。 在 他 给 出 的 


方法 中 , 先 将 概率 值 以 递减 次 序 排列 , 然后 选取 使 得 | ve - Dp | 达到 最 小 值 。 这 个 


操作 将 信 源 字符 集 划 分 成 了 概率 几乎 相等 的 两 个 集合 .将 概率 较 高 的 那个 集合 中 的 字符 
对 应 码 字 的 第 一 个 位 置 上 写成 0, 概率 值 较 低 的 集合 写成 1。 然 后 对 每 个 划分 出 来 的 子 集 
继续 重复 此 过 程 ,由 此 递 推 程序 , 最 终 每 个 信 源 字符 均 可 得 到 一 个 相应 的 码 字 。 对 此 方案 ， 
虽然 一 般 不 是 最 优 的 , 但 可 以 达到 L(C) < H(X) + 2( 见 [282])。 


5.8 ” 赫 夫 曼 码 的 最 优 性 


利用 归纳 法 可 以 证 明 二 元 赫 夫 曼 码 是 最 优 的 。 记 住 重 要 的 一 点 , 最 优 码 有 很 多 。 例 如 , 将 一 
个 最 优 码 码 字 的 位 倒序 , 或 交换 具有 相同 长 度 的 两 个 码 字 , 均 可 获得 另 一 个 最 优 码 。 由 赫 夫 曼 程 序 所 
构造 出 的 就 是 一 个 最 优 码 。 为 证 明 赫 夫 曼 码 的 最 优 性 , 首先 来 证 明 特 定 最 优 码 所 具有 的 某 些 性 质 。 
不 失 一 般 性 , 假定 随机 变量 的 概率 分 布 列 依次 排列 为 pi > p 宇 … S 加 。 回 忆 最 优 码 的 定 
aM, YD) ph 达 最 小 时 ,编码 是 最 优 的 。 
引 理 5.8.1 对 任意 一 个 分 布 , 必然 存 在 满足 如 下 性 质 的 一 个 最 优 即时 码 ( 即 有 最 小 期 望 长 
FE): 
1. 其 长 度 序 列 与 按 概 率 分 布 列 排列 的 次 序 相反 , BP, Sp >, M GS 
2. 最 长 的 两 个 码 字 具有 相同 长 度 。 
3. 最 长 的 两 个 码 字 仅 在 最 后 一 位 上 有 所 差别 ， 且 对 应 于 两 个 最 小 可 能 发 生 的 字符 。 
证 明 : 实际 上 , 证 明 需 要 的 步 又 是 如 图 5-3 所 示 的 交换 、 修 剪 及 重 排 过 程 。 考 虑 一 个 最 优 码 
Cm: ' 
e $p>pm, WL. MNRAS HAE. 
设 Cn WHC, 中 的 码 字 ; Mk 交换 所 得 到 的 编码 , 则 
L(Cn )-L(C,) = pd’ X pili (5-62) 
= pilk + Pl; — Pili — Dele (5-63) 
=(p;— Pe) (a - 46) | (5-64) 
但 p- >, >0, 由 于 C, 是 最 优 的 , WH L(C,)-L(C,)20, 故 必 有 Slo ATRE 
BAS C,, 必定 满足 性 质 1。 
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P2 
Ps 
Pa 
Ps 





b) c) d) 


图 5-3 最 优 码 的 有 关 性 质 。 假 定 加 之 加 之 … 之 加 。a) 给 出 可 能 的 即时 码 。 通 过 修剪 无 兄弟 的 分 枝 ,， 可 将 
原 码 改进 为 b) 将 编码 树 重 排 成 如 c) 所 示 ，, 使 得 从 顶部 到 底部 按照 码 字 长 度 的 增加 排列 。 
最 后 ,交换 概率 匹配 使 得 编码 树 的 期 望 深度 得 到 改进 ,如 d) 所 示 。 因 此 ,任何 一 个 最 优 码 都 可 以 通 
过 重 排 和 交换 最 终 具有 如 d) 所 示 的 典 则 形式 。 在 这 里 请 注意 并 1 志 … 志 1 以 及 1, -1= lnm， 最 后 两 个 
码 字 的 差别 仅 在 于 最 后 一 位 


最 长 的 两 个 码 字 具有 相同 的 长 度 。 通 过 修剪 码 字 获得 结论 。 如 果 两 个 最 长 码 字 长 度 不 
A, 那么 将 较 长 码 字 的 最 后 一 位 删除 , 它 仍 可 保持 前 缀 性 质 , 但 此 时 具有 更 短 的 期 望 码 字 
长 。 因 此 , 最 长 的 两 个 码 字 长 度 必定 相等 。 由 性 质 1 可 知 , 最 长 的 所 有 码 字 对 应 于 那些 
最 小 可 能 发 生 的 信 源 字符 。 
两 个 最 长 码 字 仅 在 最 后 一 位 有 了 所 差别 , 并 且 分 别 对 应 于 两 个 最 小 可 能 发 生 的 信 源 字符 。 
并 非 所 有 的 最 优 码 都 满足 这 个 性 质 , 但 通过 重 排 可 以 获得 满足 该 性 质 的 最 优 码 。 如 果 存 
在 长 度 最 长 的 码 字 , 则 删除 码 字 的 最 后 一 位 ， 所 得 的 码 字 仍 满足 前 缀 性 质 。 从 而 期 望 码 
字 长 度 有 所 减 小 , 这 与 编码 的 最 优 性 矛盾 。 因 此 , 在 任何 一 个 最 优 编码 中 , 最 大 长 度 码 字 ”L124 
有 兄弟 。 此 时 , 我 们 交换 两 个 最 长 的 码 字 使 得 具有 最 小 概率 的 信 源 字符 对 应 于 树 上 的 两 
个 兄弟 (sibling)。 这 样 处 理 并 没有 改变 期 望 长 度 忆 pi; 的 值 。 于 是 , 两 个 最 小 概率 信 源 字 
符 对 应 于 最 长 的 两 个 码 字 , 它们 除了 最 后 一 位 不 同 其 他 都 完全 相同 。 

总 之 , 我 们 已 证 明 : € pp pn, 则 存在 长 度 列 为 i <b)<--<1,,-1= ln 的 一 个 最 
R, HBF Crp- OM C(zw) 仅 最 后 一 位 有 所 区 别 。 口 

因此 , 满足 引 理 中 性 质 的 最 优 码 是 存在 的 。 我 们 称 这 样 的 码 为 典 则 码 (canonical code)。 对 于 
m 元 字母 表 上 的 概率 密度 函数 p= (21, Pos Pm) Pi SS Pms 我 们 定义 其 m -1 元 字母 
R LRZ ASE (Huffman reduction) 9 p = (p1, P25" Pm-2» Pm—1 + Pm) E 5-4) 0 FA Ch- (P) 
表示 p 的 最 优 码 , 而 用 Ch- (MRR p 的 典 则 最 优 码 。 


Pı 


Pı 








a) 


54 替 夫 曼 码 的 推导 步骤 。 令 pl 之 2 之 … 之 ps。a) 给 出 一 个 典 则 最 优 码 。 合 并 两 个 最 小 概率 ， 
得 到 b) 中 的 编码 。 按 照 降序 方式 重 排 概率 值 , 得 到 c) 所 示 的 m - 1 个 字符 上 的 典 则 码 


最 优 性 证 明 可 以 由 下 面 两 个 构造 得 到 : 首先 , 通过 扩展 p 的 最 优 码 构 造 出 p 的 码 , 然后 将 p 
的 典 则 最 优 码 精简 , 构造 出 赫 夫 曼 合 并 p 的 码 。 比 较 两 个 码 的 平均 码 字 长 可 以 证 明 , 通过 扩展 pp 125 
的 最 优 码 就 可 得 到 p 的 最 优 码 。 
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基于 p 的 最 优 码 构造 m 元 扩展 码 的 方法 如 下 : 取 Cx -1 中 权重 为 如 -1+ 加 的 码 字 , 对 其 进 
行 扩展 , 在 尾部 加 0 形成 字符 m-1 的 相应 码 字 , 加 1 形成 字符 m 的 相应 码 字 。 该 编码 的 构造 过 
程 说 明 如 下 : 


Cr-i(p’) C,,(p) 
Pi wi li w= wi L=1 
p2 wh l? w= w? /2= 04 
: : : (5-65) 
Pm-2 Wn-2 ln-2 Wm-2 = Wm-2 ln-2= Lm-2 
Pm-1t Pm W m1 lm- Wm-1= Wm-10 lm-1= lm-1+1 
We = Waal ly = t+ 
由 平均 长 度 >)pY1 的 计算 表明 
LSL? (P) + Pm-1t pm (5-66) 


类 似 地 , SA pp 的 典 则 码 出 发 , 将 两 个 最 小 概率 如 -1 和 Pn 对 应 的 字符 m 一 1 与 m 的 码 字 ( 依 
照 典 则 码 的 性 质 , 这 两 个 码 字 实 际 上 是 兄弟 ) 合 并 , 可 以 构造 出 pp 的 最 优 码 。p 的 新 码 的 平均 长 
度 为 


L(p’) = > Pai + Pm—1Um—1 — 1) + Pm Cm — 1) (5-67) 
= >) pii - Pui ~ Pm (5-68) 
=L*(p)— Pm-17 Pm (5-69) 
将 式 (5 -66) 与 式 (5- 69) 相 加 , 得 到 
L(p')+ L(p)=L* (p’) + L* (p) (5-70) 
或 者 
(L(p’)-— L* (p’)) + (L(p) - L* (p)) =0 (5-71) 


下 面 我 们 考察 式 (5-71) 中 的 两 项 。 HFL (p ) 为 p 的 最 优 码 长 , 由 假定 , A L(p)-L* (p> 
0。 同 理 , 扩展 pp 的 最 优 码 得 到 的 码 的 平均 长 度 不 低 于 p 的 最 优 码 长 ( 即 L(p)-L*(p)20). B 
个 非 负 项 之 和 为 0 只 有 当 两 项 全 为 0 时 成 立 , Alb, L(p)=L* (p)( 这 就 是 说 , p 的 最 优 码 的 扩 
展 关于 pp 也 是 最 优 的 )。 

因此 , WRA m -1 个 字符 上 的 概率 分 布 p 的 一 个 最 优 码 出 发 , 通过 扩展 对 应 于 pm-1+ Pm 
的 码 字 , 就 可 以 获得 m 个 字符 上 的 编码 , 且 得 到 的 新 码 是 最 优 的 。 事 实 上 , 对 于 二 元 码 , 码 的 最 
优 性 是 明显 的 , 我 们 可 以 利用 归纳 法 来 证 明 如 下 的 一 般 性 定理 。 

定理 5.8.1 赫 夫 量 码 是 最 优 的 ， 即 ,如 果 C "为 赫 夫 要 码 而 C 是 其 他 码 , 则 LCS 
L(C’)。 

针对 二 元 字母 表情 形 我 们 已 经 证 明了 上 述 定理 。 该 证 明 过 程 可 以 推广 , 对 于 也 元 字母 表情 
E, 赫 夫 曼 编码 算法 的 最 优 性 也 是 成 立 的 。 顺 便 说 一 句 , 我 们 应 该 注意 到 了 在 每 一 步 合并 两 个 最 
小 可 能 发 生 的 字符 时 , 替 夫 曼 编 码 是 个 “ 贪 禁 " 算 法 。 前 面 的 证 明 表 明 这 样 的 局 部 最 优 性 可 以 保 
证 最 终 编码 的 全 局 最 优 性 。 


5.9 Shannon-Fano-Elias 编码 、 


“在 5.4 节 中 , 我 们 已 经 证 明了 码 字 长 !(z)= | log sy | 的 集合 满足 Kraft 不 等 式 , 由 此 可 
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以 构造 信 源 的 惟一 可 译 码 。 在 本 节 中 介绍 一 个 简单 的 构造 程序 , 基本 思路 是 利用 累积 分 布 函 数 
来 分 配 码 字 。 
不 失 一 般 性 , BERK = 11,2,…,m}。 假 设 对 所 有 的 zx, 有 p(x)>0。 定 义 累积 分 布 函数 
F(z) 为 
F(x) = 2 pla) (5-72) 
其 函数 图 形 见 图 5-5 所 示 。 考 虑 修正 的 累积 分 布 函数 
F(x) = >Jp(a) + 5 P(x) (5-73) 


其 中 , F(x) RR r 的 所 有 字符 的 概率 和 
加 上 字符 z 概率 的 一 半 所 得 到 的 值 。 由 于 随机 yl 
变量 是 离散 的 ， 故 累积 分 布 函数 所 含 的 阶梯 高 Ff 
度 为 p(x). BM 玉 (z) 的 值 正 好 是 与 = 对 应 
的 那个 阶梯 的 中 点 。 

由 于 所 有 的 概率 值 是 正 的 , 车 ab, W 
天 (oa) 天 并 (5)。 若 已 知 严 (z)， 则 可 以 确定 z。  %|- | 
因此 ， 只 需 通过 观察 累积 分 布 函数 的 图 形 ， 就 可 ”图 5-5 累积 分 布 函 数 与 Shannon-Fano-Elias 编码 
找 得 相应 的 co kt F(z) 可 以 作为 x 的 编码 。 

但 在 一 般 情况 下 , F(z) 需 要 用 无 限 多 比特 才 可 表示 的 实数 。 所 以 , 使 用 下 (z) 的 精确 值 作为 
对 x 的 编码 并 非 切实 可 行 。 假 如 使用 近似 值 , 那么 需要 精确 到 什么 程度 呢 ? 

假定 将 F(x) BAR Uc) GLE C) l)o FE, 取 下 (z) 的 前 1(z) 位 作为 z 的 码 。 
由 舍 入 定义 ,可 得 


F(x) 
4 














F(a) -LF(2) <a (5-74) 
1 . 
着 1(z)=| lg5 |+1, 则 
< 多 = Fx) -F(z-1) (5-75) 


因而 , L(x) dicey 位 于 对 应 z 的 阶梯 之 中 , 那么 , 使 用 1(z) 比 特 足以 表示 z。 

这 里 ， 除 要 求 码 字 与 字符 一 一 对 应 之 外 , 还 要 求 码 字 集 是 无 前 级 的 。 为 验证 该 编码 是 否 为 前 
‘Bi, 考虑 每 个 码 字 ziz2… z1， 注意 到 它 实际 上 代表 的 不 是 一 个 点 , 而 是 一 个 区 间 
[o zz2…,0.z1z2… 扣 + 十 ]。 码 是 无 前 级 的 当 且 仅 当 码 字 对 应 的 区 间 互 不 相交 。 


现在 证 明 上 述 码 字 集合 无 前 缀 。 对 应 任 一 码 字 的 区 间 长 度 为 2 O, 由 式 (5-75) 可 知 所 有 区 
间 长 度 均 小 于 x 对 应 的 阶梯 高 度 的 1/2。 区 间 的 下 端 位 于 对 应 阶梯 的 下 一 半 中 , 于 是 区 间 的 上 端 
位 于 对 应 阶梯 的 顶部 之 下 , 故而 在 累积 分 布 函数 之 中 , 任 一 码 字 对 应 的 区 间 都 真 包含 于 相应 字符 
所 对 应 的 阶梯 中 。 所 以 不 同 码 字 对 应 的 区 间 不 相交 ,此 码 是 无 前 级 的 。 注 意 , 该 程序 没有 要 求 字 
符 按 其 概率 大 小 顺序 排列 。 在 习题 5.5.28 中 , 给 出 了 要 求 概率 值 排列 有 序 的 另 一 个 编码 程序 。 


1 — 
由 于 使 用 !(z) = | bezig | + 1 比特 来 表示 z， 则 编码 的 期 望 长 度 为 
L = >)p(2)U(2) = Dela) { [be sty 小 1)< H(X) +2 (5-76) 
因此 ,该 编码 方案 的 期 望 码 长 不 会 超过 炉 值 2 比特 。 


oo 





74 BSF 








5.9.1 首先 考虑 下 面 的 例子 , 其 中 所 有 概率 值 都 是 二 进 制 的 。 码 的 构造 如 下 表 : 


x plz) F(z) F(z) F(z) 的 二 进 制 表示 上 -| toe shy |+ 码 字 





0.25 0.25 0.125 0.001 
0.5 0.75 0.5 0.10 


001 
10 
0.125 0.875 0.8125 0.1101 1101 


0.125 1.0 0.9375 0.1111 


Ae WwW N e 
a >è N 0 


1111 


在 此 情形 下 , 期 望 码 长 为 2.75 比特 , MAX 1.75 比特 。 对 于 这 个 例子 , 赫 夫 曼 编码 的 期 望 
码 长 恰好 与 箭 相 等 。 注 意 表格 中 给 出 的 码 字 , 显然 存在 着 某 些 无 效 性 , 如 最 后 两 个 码 字 的 最 后 一 
位 均 可 删除 。 但 是 , 如果 删 除 所 有 码 字 的 最 后 一 位 , 那么 所 得 到 的 码 就 不 再 是 无 前 缀 的 了 。 

例 5.9.2 现在 给 出 构造 Shannon-Fano-Elias 码 的 另 一 个 例子 。 在 此 例 中 , 由 于 分 布 不 是 二 
进 制 的 , 所 以 F(z) 的 二 进 制 表示 可 能 有 无 穷 位 数字 。 用 0. 01 表 示 0.01010101…。 构 造 的 码 如 
下 表 : 








xz pz) F(z) F(z) Pyaar 1(z)=| w-d |+1 BF 
1 0.25 0.25 0.125 0.001 3 001 
2 0.25 0.5 0.375 0.011 3 011 
3 0.2 0.7 0.6 0.10011 4 1001 
4 0.15 0.85 0.775 0.1100011 4 1100 
5 0.15 1.0 0.925 0.1110110 4 1110 


上 述 编码 的 平均 长 度 比 该 信 源 赫 夫 曼 编 码 ( 例 5.6.1) 的 长 度 大 1.2 比特 。 

Shannon-Fano-Elias 编码 程序 也 可 以 应 用 到 随机 变量 序列 。 其 关键 思想 是 利用 序列 的 累积 分 
布 函数 以 适当 的 精度 表示 作为 该 序列 的 编码 。 将 此 方法 直接 应 用 到 长 度 为 n 的 分 组 码 , 需要 计 
算 所 有 n 长 序列 的 概率 和 累积 分 布 , 且 这 种 计算 量 随 分 组 长 度 以 指数 增长 。 但 是 一 种 简单 的 技 
巧 可 以 保证 我 们 每 当 在 分 组 中 观察 到 一 个 字符 时 , 可 以 逐次 地 计算 出 概率 和 累积 密度 函数 , 且 保 
证 计算 量 随 分 组 长 度 线性 增长 。 直 接应 用 Shannon-Fano-Elias 编码 需要 的 计算 精度 随 分 组 长 度 增 
Ke, 因而 处 理 较 长 的 分 组 长 度 是 不 现实 的 。 第 13 章 将 介绍 算术 编码 , 使 用 固定 的 精度 对 随机 变量 
序列 进行 编码 ,是 Shannon Fano-Elias 编码 的 推广 , 其 复杂 度 随 序列 的 长 度 线性 增长 。 该 方法 是 现 
实 世 界 中 许多 压缩 方案 的 基础 ， 比 如 , JPEG 与 FAX 的 压缩 标准 都 用 到 了 它 。 


5.10 香农 码 的 竞争 最 优 性 


我 们 已 证 明 赫 夫 曼 编码 是 具有 最 小 期 望 长 度 的 最 优 码 。 但 是 , 对 某 个 特定 的 信 源 序列 来 说 ， 
赫 夫 曼 编码 的 性 能 又 如 何 呢 ? 例如 , 对 所 有 序列 中 来 说 , 赫 夫 曼 编码 优 于 其 他 编码 吗 ? 显然 不 
E, 因为 存在 某 些 编码 , 它们 分 配 较 短 的 码 字 给 不 经 常 发 生 的 信 源 字符 。 对 于 这 些 信 源 字符 , 这 
样 的 编码 比 赫 夫 曼 编码 更 好 。 

在 正式 叙述 竞争 最 优 性 问题 之 前 , 考虑 下 列 两 人 间 的 零 和 游戏 : 有 两 个 人 , 给 定 一 个 概率 分 
布 ,要求 他 们 对 此 分 布 各 自 设计 一 个 即时 码 。 现 有 一 个 信 源 字符 来 自 该 分 布 。 比 赛 规则 是 : 对 此 
信 源 字符 , 如 果 参 赛 者 A 设计 的 码 字 比 参赛 者 B 设 计 的 短 或 长 , 则 A 相 应 的 得 分 是 1 或 -1, 车 
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比 个 平手 , 则 A 的 得 分 为 0。 
用 赫 夫 曼 码 的 码 长 处 理 并 不 容易 ， 因 为 它 没 有 关于 码 字 长 度 的 显 式 表达 式 。 相 反 , 若 考 虑 香 
农 编码 ,其 码 字 长 度 !(z) = | bezig | , 问题 就 容易 处 理 了 。 在 此 有 如 下 定理 。 
定理 5.10.1 设 1(z) 为 香农 码 的 相应 码 字 长 度 , 而 (Xx) 表示 其 他 惟一 可 译 码 的 相应 码 字 
长 度 。 则 
1 


Pr(i(X) 22 (X) + OS Sei (5-77) 


例如 , (X) CX) RS 比特 或 更 多 的 概率 不 超过 去。 


WERA: 

muwara sa-a] ean Pe (5-78) 
_p(p(X) 2 i007e+1) (5-80) 
= >) plz) (5-81) 

riplar ee ` 
< 2 DEED (5-82) 

x :p(x)<2" 

< > ro- (c-1) (5-83) 
<27 (5-84) 
由 Kraft ASRS D2 OKL. 口 


因此 , 在 大 多 数 情况 下 , 没有 其 他 码 能 够 比 香农 码 更 为 优越 。 现 在 我 们 从 两 方面 来 加 强 这 个 
结论 。 在 博弈 论 架 构 中 ,人 们 常 希望 保证 (2) <0 (2) ARB U(x) >U (x). BE U(x) a) 


+1 REWERS RERA. 下 面 我 们 证 明 甚 至 对 于 这 个 更 为 严格 的 判别 准则 , 香农 码 也 
是 最 优 的 。 回 顾 一 下 , 如果 对 所 有 z, log ADER, aes 户 ( 工 ) 是 二 进 制 。 


定理 5.10.2 对 二 进 制 概率 密度 函数 p(x), 设 L(z)=log ne 了 为 信 源 的 二 元 香农 码 的 码 
字 长 度 ,， 1 (xz) 为 信 源 任何 其 他 惟一 可 译 二 元 码 的 码 字 长 度 。 则 
Pr(iC(X) <1 (X))SPr(i(X) > V(X) (5-85) 
当 且 仅 当 对 所 有 的 AU (z)= 7 (z) 等 号 成 立 。 于 
ZK I(x) =log 7 是 惟一 竞争 最 优 的 。 
证 明 : 定义 函数 sgn(:) 如 下 : 


sgn(x) 





1 当 z>0 
T 0 424-0 (5-86) 
-1 ¥4z<0 
由 图 5-6 易 知 
sgn(z)<2:-1 对 于 上 =0, 寺 1, 土 2,… (5-87) 
注意 , 尽管 上 述 不 等 式 对 所 有 的 实 值 上 并 不 满足 ， 
但 对 所 有 的 整 值 i 却 是 满足 的 。 此 时 可 以 得 到 图 5-6 符号 函数 (sgn) 与 它 的 一 个 界 
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Pr(i’(X) < 1(X)) -P(X > UX) = > pz)- SD plz) (5-88) 


ail’ (x)< ix) zil'(z)>Ux) 


= >)p(x)sen(1(x) - U’(x)) (5-89) 


= E sgn(1(X) — 1 (X)) (5-90) 
(a) , 

<>) p(x) 27) — 1) (5-91), 
一 S22) Qh" (x) — 1) (5-92) 
> 271) > 72-4z) (5-93) 
= 了 72-7 Cn) -1 (5-94) 
<1-1 (5-95) 
=0 (5-96) 


其 中 (a) 由 sen( x) BY LAMBS, (b) EF U(x) Kraft 不 等 式 。 

在 以 上 的 关系 链 中 , 要 使 等 号 成 立 , 仅 需 (a) 和 (b) 均 取 等 号 。 为 使 sgn(1) 达 到 它 的 界 2: 一 1 
当 且 仅 当 上 =0 或 1, 即 为 使 (a) 式 为 等 号 , MHA (x)= (xz) 或 1(z)= (xz)+1。(b) 式 等 
号 成 立 , 意味 着 要 求 (zx) 满足 Kraft 不 等 式 恰好 等 号 成 立 。 综 合 这 两 点 , 对 所 有 的 zx Al (x)= 


L(x) BU 口 
推论 ”对 于 非 二 进 的 概率 密度 函数 ， 
E sgn(1(x) -1(X) -1)<0 (5-97) 
其 中 1(z)=| loesty |， (x) 为 信 源 其 他 任何 一 个 编码 。 
证 明 : 沿用 上 述 定理 的 证 明 过 程 ,命题 即 可 得 证 。 o 


由 此 , 我 们 证 明了 在 某 类 判别 准则 下 , 香农 码 !(z)= | log 5- | 是 最 优 的 ; BAFE 
数 , 香农 码 具有 稳健 性 。 特 别 地 , 对 于 二 进 制 的 如 ,下 (1 -1)<0,E sll- 六) 委 0， 再 由 不 等 式 
(5-87), 可 得 Ef(1 TKO, 其 中 /是 满足 f(:)<2 -1 的 任意 函数 ,t=0, +1, +2,…。 

5.11 由 均匀 硬币 投掷 生成 离散 分 布 


在 本 章 的 前 面 几 节 中 考虑 的 问题 是 如 何 用 比特 序列 表示 一 个 随机 变量 , 使 表示 的 期 望 长 度 
达到 最 小 。 通 过 讨论 (习题 5.5.29) 可 知 , 这 样 的 已 编码 序列 基本 上 不 能 再 压缩 了 , Pte 
似 等 于 1 比特 每 字符 。 从 而 , 已 编码 序列 上 的 比特 实质 上 可 通过 抛掷 均匀 硬币 过 程 来 生成 。 

在 本 节 中 , 我 们 将 稍稍 绕 开 一 下 信 源 编码 的 讨论 主题 ， 先 考虑 其 对 偶 问题 。 需 要 抛掷 均匀 硬 
币 多 少 次 , 才能 够 生成 服从 特定 概率 密度 函数 p 的 随机 变量 ? 先 考虑 一 个 简单 例子 。 

例 5.11.1 给 定 抛掷 均匀 硬币 (均匀 比特 ) 所 产生 的 序列 , 假定 以 此 导出 一 个 随机 变量 X, 
其 分 布 为 


a 概率 为 让 
X15。 概率 为 地 (5-98) 
。 概率 为 二 
答案 很 容易 猜测 。 若 序列 的 第 一 位 是 0, 令 X = a。 若 前 两 位 是 10, X= 5。 如 果 发 现 前 两 位 
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是 11, WS X=co 显然, 此 时 X 服从 所 要 求 的 分 布 。 

在 此 情形 下 ,计算 可 得 生成 该 随机 变量 所 需 的 期 望 均匀 比特 为 二 (1)+ 二 (2)+ 寺 (2)=1.5 
比特 , 这 恰好 等 于 分 布 的 粹 。 这 是 偶然 的 吗 ? 不 , 这 正 是 本 节 所 要 阐述 的 结论 。 

对 于 一 般 问题 , 我 们 严格 叙述 如 下 。 已 知 由 抛掷 均匀 硬币 所 产生 的 序列 Zi ,Z2，…， 以 此 希 


望 生成 一 个 离散 型 随机 变量 X EY = 11,2,…,mm} ,使 其 概率 密度 函数 为 p= (p1 pr Pm)o BH L134 
随机 变量 T 表示 在 算法 中 需要 的 硬币 抛掷 次 数 。 


用 二 又 树 可 将 算法 描述 成 从 比特 捉 Z, 2Z,,… 到 可 能 结果 X 的 映射 。 
树 的 叶子 表示 输出 字符 X, 由 根 节点 至 叶子 的 路 径 表 示 由 均匀 硬币 产 ON 
生 的 比特 序列 。 例 如 , 关于 分 布 (十 ,地 ,二 ) 的 树 如 图 5-7 所 示 。 eo 
表示 算法 的 树 必须 满足 一 定 的 性 质 : 图 5-7 ERE, 1 4) 
1. 树 必 须 是 完全 的 ， 即 每 个 节点 或 者 是 一 片 叶子 , 或 者 在 树 中 wut wine 474 
拥有 两 个 后 代 。 树 有 可 能 是 无 限 的, 这 我 们 会 用 几 个 例子 
来 说 明 。 
2. 深度 为 & 的 叶子 的 概率 是 2-*。 许 多 叶子 用 相同 的 输出 字符 标记 , 即 所 有 这 些 叶 子 的 总 
概率 应 等 于 输出 字符 的 希望 概率 。 


3. 为 生成 随机 变量 X 所 需 的 均匀 比特 数 的 期 望 值 E T 等 于 这 棵 树 的 期 望 深度 。 
在 实际 中 , 有 许多 可 行 算法 能 生成 相同 的 输出 分 布 。 例 如 , 映射 00->a 016 ,10-~c, 11a 


亦 生 成 分 布 (十, 十 ,十 )。 尽 管 如 此 ,这 个 算法 使 用 的 是 两 个 均匀 比特 生成 每 个 样本 ,而 先前 的 


映射 仅 用 1.5 比特 每 样本 , 因而 没有 先前 给 出 的 映射 更 为 有 效 。 这 促使 我 们 提出 一 个 问题 ; 为 生 
成 指定 的 分 布 , 最 有 效 的 算法 是 什么 , 与 分 布 箭 之 间 的 关系 又 如 何 ? 

我 们 希望 所 有 的 均匀 比特 至 少 与 生成 的 输出 样本 具有 相同 程度 的 随机 性 。 箭 是 随机 性 的 度 
E, 每 个 均匀 比特 的 烂 是 1 比特 , 我 们 希望 均匀 比特 数 至 少 等 于 输出 分 布 的 炉 。 这 点 由 下 面 的 定 
理 得 到 证 实 。 对 于 定理 的 证 明 , 需要 一 个 关于 树 的 引 理 。 记 了 表示 一 棵 完全 树 的 所 有 叶子 。 考 虑 |13 
所 有 叶子 上 的 一 个 分 布 , 使 得 在 树 中 深度 为 的 每 片 叶子 的 概率 为 2“*。 设 Y 是 与 此 分 布 相 应 
的 随机 变量 , 那么 有 如 下 引 理 。 

引 理 5.11.1 对 任何 完全 树 , 考虑 所 有 叶子 上 的 概率 分 布 , 使 得 深度 为 上 的 每 片 叶 子 的 概 
AE, 则 树 的 期 望 深度 等 于 该 分 布 的 炉 。 

证 明 : 树 的 期 望 深度 为 


un 


ET = Dy, £92" (5-99) 
y& 
Y W448 RA 
1 1 
H(Y) =- lg (5-100) 
= > k(y)2 (5-101) 
yE 
其 中 有 &(y) 表 示 叶 子 y 的 深度 。 于 是 
H(Y)=ET (5-1020 
定理 5.11.1 对 任何 生成 和 的 算法 ， 期 望 均匀 比特 数 的 均值 大 于 或 等 于 精 H(X), PP 
ETS>H(X) (5-103) 


证 明 : 由 均匀 比特 生成 X 的 任何 算法 均 可 用 一 棵 完全 二 又 树 来 表示 。 将 树 上 的 所 有 叶子 标 
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记 不 同 的 字符 yOV={1,2,--}. MR MBIRA, WRI. 
现在 考虑 在 树 的 所 有 叶子 上 定义 的 随机 变量 Y, 使 得 对 深度 为 & 的 任 一 叶子 y,Y = y 的 概 
率 为 2““。 由 引 理 5.11.1, 树 的 期 望 深度 等 于 Y BO, B: 
ET=H(Y) (5-104) 
由 于 随机 变量 X 是 Y 的 函数 (一 片 或 更 多 的 叶子 对 应 于 一 个 输出 字符 ), 因此 , 根据 习题 2.4 
的 结论 , 我 们 有 


H(X)<H(Y) (5-105) 
于 是 , 对 任何 生成 随机 变量 X 的 算法 , 我 们 有 
H(X)<ET (5-106) 口 


由 同样 的 讨论 , 可 以 回答 关于 二 进 分 布 的 最 优 性 问题 。 
定理 5.11.2 设 随 机 变量 X 服从 的 分 布 是 二 进 制 的 ， 则 由 抛 孝 均匀 硬币 生成 X 的 最 优 算法 
EZ MARKEE TB, P: 
ET=H(X) (5-107) 
证 明 ; 定理 5$.11.1 已 经 证 明 抛 掷 均 匀 硬 币 次 数 至 少 需要 WX) ERLER X。 对 于 树 的 构 
造 部 分 , 使 用 X 的 赫 夫 曼 码 树 作为 生成 随机 变量 的 算法 所 代表 的 树 。 对 于 二 进 制 分 布 ， 赫 夫 曼 
码 与 香农 码 相 同 , 且 平 均码 长 都 达到 箭 界 。 对 任何 zE 守 ,在 码 树 中 ，z 的 对 应 叶子 的 深度 为 相 
应 码 字 的 长 度 og 5 此]。 因 此 ， 当 使 用 该 码 树 生成 X 时 ， 对 应 x 的 叶 于 将 具有 概率 Do 
= 5(z)。 期 望 抛掷 硬币 数 等 于 树 的 期 望 深度 , 此 时 , 期 望 深度 又 等 于 箭 (由 于 分 布 是 二 进 制 的 )。 
因此 , 对 服从 二 进 制 分 布 的 随机 变量 , 其 最 优生 成 算法 满足 
ET=H(X) (5-108) C1 
如 果 分 布 不 是 二 进 制 的 , 情况 会 怎样 ? 此 时 , 不 能 采用 相同 的 思路 ,因为 由 赫 夫 曼 码 树 生成 
的 所 有 叶子 上 的 分 布 是 二 进 制 的 , 已 不 再 是 开始 给 定 的 分 布 了 。 树 的 所 有 叶子 上 的 概率 具有 形 
式 2-*, 由 此 可 知 我 们 必须 将 不 具有 这 种 形式 的 概率 p 分 裂 成 具有 该 形式 的 一 些 原子 。 然 后 再 


将 这 些 原子 分 配给 树 上 的 叶子 。 例 如 ,如 果 某 个 结果 = 的 概率 p(x) = 村， 那么 , 只 需要 一 个 原 


子 ( 树 的 第 2 层 的 叶子 ); WR p(z) = 万 = 支 + 让 + 二 ,那么 , 需要 三 个 原子 分 别 在 树 的 第 1, 2 
和 3 层 。 

为 最 小 化 树 的 期 望 深度 , 使 用 的 原子 必须 具有 尽 可 能 大 的 概率 。 因 此 , 给 定 一 个 概率 值 p, 
可 以 求 具有 形式 2* 且 小 于 p; 的 最 大 原子 , 并 将 此 原子 分 配给 树 。 然 后 , 计算 余数 并 同样 求 相应 
于 该 余数 的 最 大 原子 。 继 续 此 过 程 , 最终 我 们 可 将 所 有 的 概率 值 分 裂 成 许多 二 进 制 的 原子 。 这 
个 处 理 过 程 等 价 于 求解 概率 值 的 二 进 制 展开 式 。 设 概率 p: 的 二 进 制 展开 为 

Pi = Zp (5-109) 

其 中 p) =2-7R 0. FRR PAE |p? :i=1,2,,mjS1 6 

ED) p; = 1, 从 而 , 所 有 原子 的 概率 的 总 和 为 1。 将 概率 为 2 的 原子 分 配给 树 上 深度 为 
的 叶子 。 所 有 原子 的 深度 满足 Kraft 不 等 式 , 因此 , 由 定理 5.2.1 可 知 , 总 能 构造 出 一 棵 树 ， 使 得 
所 有 原子 在 适当 深度 的 位 置 上 。 下 面 的 例子 可 以 说 明 上 述 程序 : 


例 5.11.2 设 X 的 分 布 为 
a BRAS 
X= 


(5-110) 
b 概率 为 本 
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可 得 以 上 概率 值 的 二 进 制 展开 式 为 : 


号 =0.10101010…: (5-111) 

 =0.01010101---, (5-112) 
因此 , 展开 式 中 的 原子 为 

全 (于 二, 击 …】 (5-113) 

11,1, 4,-) (5-114) 


对 这 些 原子 进行 分 配 , 可 得 如 图 5-8 所 示 的 树 。 
该 程序 可 产生 生成 随机 变量 X 的 树 。 前 面 已 经 讨论 过 , 此 
过 程 是 最 优 的 (给 出 的 树 具有 最 小 期 望 深度 ), 但 我 们 将 不 给 出 a 
严格 的 证 明 , 而 是 估计 此 程序 生成 的 树 的 期 望 深度 的 取 值 范围 。 F 
定理 5.11.3 生成 随机 变量 X 的 最 优 算法 所 需 的 均匀 比 
特 数 的 期 望 值 在 百 (X) 和 H(X) +224; 
H(X)<ET<H(X)+2 (5-115) b 
证 明 : 关于 抛掷 硬币 的 期 望 次 数 的 下 界 已 由 定理 5$.11.1 
得 到 证 明 。 对 于 上 界 , 对 上 面 所 述 程序 所 需 的 硬币 期 望 抛掷 数 图 5.8 生成 分 布 (3 ,于 ) 的 树 图 
给 出 一 个 显 表达 式 。 将 概率 (pi,p,,… ,Pp ) 分 裂 成 二 进 制 的 原 
子 , 例如 ， 
Pir (pl PP?) (5-116) 
等 等 。 利 用 这 些 原子 (它们 形成 二 进 制 分 布 ) 可 以 构造 出 一 棵 树 ， 其 树 的 叶子 对 应 于 其 中 的 每 一 
个 原子 。 硬 币 期 望 抛掷 数 就 是 树 的 期 望 深度 , 也 就 是 原子 的 二 进 制 分 布 的 烂 。 故 ， 


ET=H(Y) (5-117) 
HP Y WAH pl, pi? +, pS, pp), p,e) HF XEY 的 函数 , WA 
H(Y)=H(Y,X)=H(X)+ H(Y!X) (5-118) 


因此 只 需 证 明 ACY |X)<2. PRA eRe. OY RT, 由 于 对 每 个 原子 , 存在 
ET k, 使 其 概率 为 0 或 2, 则 


HCY) =- >) >) pl loge” (5-119) 
i=1 j1 

= > >») j2 (5-120) 
i=1 jp? >0 


:= Dy j2” (5-121) 
BARERA n, 使 2-c-D>p>2- R 
n-1< - logt; <n (5-122) 
FE, 当 j>n AAW pp >0, 因此 , 式 (5-121) 可 重新 写成 
Ti= >) j27 (5-123) 


由 原子 的 定义 , 可 将 p 展开 成 
B= D 2 (5-124) 


sas ti) 
jin, p, >0 
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为 证 明 上 界 , 首先 证 明 T;< — pilogp;+2p;. FBA 


(a) 
T; + pilogp; — 2: < Ti p(n -1) - 2; (5-125) 
= T;—(n-1+2)p; (5-126) 
= 3) ri- aki 2 2 (5-127) 
jj>n, p? >0 六 mp >0 
= B -arn De" (5-128) 
jj2n, p? >0 
三 二 和 40+ 2): G=e- D2 (5-129) 
F jij>n+2,p? >0 
(b) 
age. it grees (5-130) 
kika, p” >0 ; 
(c) 
Pa EAD Mh S p2 (tnt) (5-131) 
k:k>1 
ay ale” A (5-132) 
=0 (5-133) 


其 中 (a) 可 由 式 (5-122) 得 到 ， (b) 通 过 对 求 和 变量 进行 变换 即 可 ， 而 (c) 需 扩大 求 和 范围 即 可 得 到 。 
因此 , 证 得 


T;< — pilogp; + 20: (5-134) 

HET = 22T;, 即 可 得 
ET <- 2 pilogp: + 22p: = H(X) +2 (5-135) 
至 此 定理 得 证 。 | 口 


FE, 平均 抛掷 HOX) + 2 次 硬币 就 足够 模拟 随机 变量 X 了 。 





数据 压缩 81 





习题 


5.1 惟一 可 译 码 与 即时 码 。 考 虑 随机 变量 X 的 编码 , BL = >)" pl! 为 码 字 长 度 的 100 UE 
的 期 望 值 。 设 Li = minl, 在 所 有 即时 码 中 进行 ; Lo = minl, 在 所 有 惟一 可 译 码 上 进行 .Li 
和 L 存在 怎样 的 不 等 关系 ? 
S ented 
Pir > Pm 


5.2 火星 人 有 多 少 个 手指 头 ? B 
将 所 有 S; 以 惟一 可 译 码 方式 编码 成 DD 元 字母 表 的 字符 串 。 若 m= 6 并 且 码 字 长 度 为 (71， 
las, l6) = (1 ,4,2;3523); 请 估计 D 的 一 个 好 下 界 。 至 此 尝试 解释 该 习题 的 标题 。 

5.3 Kraft 不 等 式 的 减弱 。 即 时 码 的 码 字 长 度 41, 1s,,…, lm 满足 严格 的 不 等 式 


yD Zi 


码 的 字母 表 为 D= {0,1,2,---,D-1}. WEED 中 存在 着 任意 长 的 编码 字符 序列 ， 使 其 不 能 
译 为 码 字 序 列 。 
5.4 赫 夫 受 码 。 考 虑 随机 变量 
”| 1 x2 T3 4 BS 26 X7 
~ \0.49 0.26 0.12 0.04 0.04 0.03 ays 
(a) R X 的 二 元 赫 夫 曼 码 。 
(b) 求 该 编码 的 期 望 码 长 。 
(c) R X HITRE, 
5.5 一 码 多 用 的 赫 夫 受 码 。 某 信 源 的 概率 分 布 为 (1/3,1/5,1/5,2715,2715), 试 求 其 二 元 赫 夫 曼 
码 。 并 讨论 所 得 的 码 对 概率 分 布 为 (1/5,1/5,1/5,1/5,1/5) 的 信 源 也 是 最 优 的 。 
5.6 坏 码 。 请 问 下 列 哪些 码 对 于 任何 概率 分 布 均 不 可 能 成 为 赫 夫 曼 码 ? 
(a) {0,10,11} 
(b) {00,01,10,110} 
(c) {01,10} 
5.7 赫 夫 受 20 问题 。 考 虑 n 件 物品 组 成 的 集合 。 根 据 第 i 件 物品 合格 或 是 次 品 , 分 别 设 X;=1 


或 0。 设 Xi,X2,…,X, 相互 独立 , Pri X= 11 = ps; 并且 p1>ps>…> 加 之 方 。 现在 利用 


提问 方案 确定 所 有 的 次 品 集 , 任何 能 想到 的 是 否 型 问题 均 许可 。 
(a) 请 估计 所 需 最 小 期 望 问题 数 的 一 个 好 下 界 。 。““ 
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5.8 


5.9 


5.10 


5.11 


5.12 


5.13 


5.14 


(b) 当 解 决 我 们 的 问题 需要 最 长 的 问题 序列 时 , 那么 应 该 问 的 最 后 一 个 问题 是 什么 (用 文字 
表述 )? 利用 此 问题 可 以 区 别 开 哪 两 个 集合 ? 假定 讨论 的 是 紧凑 (具有 最 小 期 望 长 度 ) 问 
题 序列 。 

(c) 给 出 所 需 问题 的 最 小 平均 数 的 上 界 ( 用 不 超过 1 个 问题 )。 

马尔 可 夫 信 源 的 简单 最 优 压 缩 。 考 虑 三 状态 的 马尔 可 夫 过 程 U, U,,…, 其 转移 矩阵 为 

由 表 可 知 , 由 S 转移 到 Si 的 概率 为 零 。 请 设计 3 

个 编码 Cy, Cy, Ca3( 分 别 对 应 各 状态 1, 2, 3), 且 每 

个 码 将 1Si, S2, Ss 中 的 各 元 素 映 射 为 0 和 1 的 序 

列 , 使 得 用 如 下 方案 可 以 最 大 程度 压缩 来 发 送 该 马 

尔 可 夫 过 程 信号 : 

(a) 注意 当前 的 字符 为 U, =i. 

(b) 选择 编码 Cio 

(c) 注意 到 下 一 个 字符 为 Unj 则 发 送 编码 Ci 中 对 应 7 的 码 字 。 

(d) 对 于 下 一 个 字符 , 重复 以 上 步骤 。 若 使 用 上 述 编码 方案 , 在 前 状态 U, = i 的 条 件 下 ， 
下 一 个 字符 的 平均 码 长 为 多 少 ? 无 条 件 期 望 码 长 为 多 少 比特 每 字符 ?将 此 与 马尔 可 夫 
SE ME 五 (24) 联 系 起 来 。 

大 于 炉 约 1 比特 的 最 优 码 长 。 信 源 编 码 定理 表明 ,随机 变量 X 的 最 优 码 的 期 望 长 度 小 于 

H(X) + 1。 请 列举 出 一 个 随机 变量 , 要 求 其 最 优 码 的 期 望 长 度 近似 等 于 H(X) +1, BAHE 

È es>0, 试 构造 一 个 分 布 , 使 其 最 优 码 的 期 望 长 度 满足 L>H(X)+1-e。 

达到 炉 界 的 三 元 码 。 设 随机 变量 X em MA, 粮 为 五 (X)。 假 定 已 求 得 该 信 源 的 三 元 即 
时 码 , 其 平均 长 度 为 


N 
N 

WY 
四 





1 1 
4 4 
1 上 
2 4 
1 1 
2 2 





p=) S HX) (5-145) 
(a) 证 明 X 的 每 个 字符 的 概率 , 对 某 个 i 均 具有 形式 3-。 
(b) 证 明 m 为 奇数 。 
后 缓 条件。 满足 后 缀 条 件 的 编码 指 无 一 码 字 是 其 他 任何 码 字 的 后 级 。 试 证 明 满 足 后 缀 条 
件 的 编码 是 惟一 可 译 的 ,并 证 明 满足 后 级 条 件 的 所 有 编码 的 最 小 平均 码 长 等 于 该 随机 变 


量 的 赫 夫 曼 编码 的 平均 长 度 。 

香农 码 与 赫 夫 受 码 。 设 随机 变量 X 取 4 个 值 ， 其 概率 分 布 为 (于 , 圭 , 于 ,十 )。 

(a) 请 构造 此 随机 变量 的 赫 夫 曼 码 。 | 

(b) 证 明 存 在 两 个 不 同 的 码 字 最 优 长 度 集 , 即 证 明码 字 长 度 分 配 (1,2,3,3) 和 (2,2,2,2) 均 


是 最 优 的 。 
(c) 由 此 可 知 , 某 些 最 优 码 的 一 些 字符 的 相应 码 长 有 可 能 超过 香农 码 的 相应 码 长 


[og 575 | o 
20 问题 。 参 赛 者 A 在 总 体 中 抽取 一 物品 , 而 参赛 者 B 试 图 通过 是 否 型 的 问题 确认 是 什么 
物品 。 对 于 参赛 者 A 抽取 物品 的 分 布 , 假定 参赛 者 B 足 够 聪明 可 以 想 出 一 个 编码 , 使 其 编 
码 的 期 望 长 度 达 到 最 小 。 注 意 到 参赛 者 B 期 望 需 要 38.5 个 问题 才能 确定 A 所 抽取 的 物 
品 。 试 给 出 总 体 中 物品 个 数 的 一 个 粗略 下 界 。 
HARE, WHER X 的 概率 为 
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5.15 


5.17 


5.18 


5.19 





ORE (a) ICA (b) ZILAR E R o 

(c) 计算 以 上 每 种 情形 的 L= > Pi;。 

HALA 

(a) 对 下 列 定义 5 个 字符 的 分 布 : p= (0.3,0.3,0.2,0.1,0.1), 构造 一 个 二 元 赫 夫 曼 码 。 
并 求 出 该 码 的 平均 长 度 。 

(b) 构造 一 个 5 字符 概率 分 布 p， 使 得 (a) 中 构造 出 来 的 那个 码 关 于 p FAKE AH 
H(p). 

赫 夫 曼 码 。 考 虑 随机 变量 X, w6 EIA, B,C, D,E, F], 其 概率 依次 为 0.5, 0.25, 

0.1, 0.05, 0.05 和 0.05。 

(a) 构造 该 随机 变量 的 二 元 幸 夫 曼 码 。 其 期 望 长 度 是 多 少 ? 

(b) 构造 该 随机 变量 的 四 元 赫 夫 曼 码 ( 即 在 四 元 字母 表 (不 妨 说 它们 是 a, b, c 和 d) 上 的 编 
码 )。 其 期 望 长 度 是 多 少 ? 

(c) 构造 该 随机 变量 的 二 元 赫 夫 曼 码 的 另 一 种 方法 是 ,从 一 个 四 元 码 出 发 , 利用 上 映射: a 一 
00, 5 一 01, c10 和 d 一 11 将 字符 变换 成 二 进 制 数字 。 那 么 由 此 过 程 构造 出 来 的 二 元 
码 的 平均 长 度 是 多 少 ? 

(d) 对 任意 随机 变量 X, 设 Lp 为 该 随机 变量 的 二 元 赫 夫 曼 码 的 平均 长 度 , 设 Las 为 先 构 
造 一 个 四 元 赫 夫 曼 码 , 再 变换 成 二 元 赫 夫 曼 码 所 得 编码 的 平均 长 度 。 证 明 

LyXLog< Ly +2 (5-146) 

(e) 该 例子 的 下 界 是 紧 致 的 。 举 例 说 明 由 最 优 四 元 赫 夫 曼 码 变 换 而 来 的 编码 也 是 最 优 二 元 
码 。 

(f) ERCI Laos<Lr+2) 并 不 紧 致 。 事 实 上 , 较 好 的 上 界 应 该 是 Los 魏 La+1l。 证 明 这 个 
LA, 并 举例 说 明 该 上 界 是 紧 致 的 。 

数据 压缩 。 对 于 下 列 每 个 概率 密度 函数 的 即时 码 , 分 别 找 出 二 元 码 字 长 14,42…( 使 2 pd; 

最 小 化 ) 的 最 优 集 。 


(a) p= (4144D ai Ai) 
2 3 

(b) p = 人 (了 (zo) (40): 10) (70) (75) (70) =) 

码 的 种 类 。 考 虑 码 10,01| 

(a) 它 是 即时 的 吗 ? 

(b) 它 是 惟一 可 译 的 吗 ? 

(c) 它 是 非 奇异 的 吗 ? 

高 低 游戏 

(a) 一 台 计 算 机 根据 已 知 概率 密度 函数 (z) 产 生 一 个 数 X, 其 中 zE 11,2,…,1001。 参 
赛 者 提出 问题 “X=i 吗 ?”, 得 到 的 回答 有 “是 ”,“ 猜 高 了 "或 “ 猜 低 了 ”。 他 连续 问 6 
个 问题 。 若 在 此 过 程 中 , 他 猜 对 了 ( 即 他 获得 了 一 个 回答 “是 ”), 就 可 获得 奖金 v(X)。 
问 这 名 参赛 者 该 如 何 进行 才能 赢得 最 大 的 期 望 奖 金额 ? 

b 实际 上 ， 上 述 问 题 与 信息 论 并 没有 多 大 关系 。 考 虑 如 下 变量 : X~ p(x), 奖金 = 
vz), 其 中 p(z) 已 知 如 前 所 述 。 现 在 提出 任意 的 是 否 型 问题 直至 X 被 确定 为 止 。 
(这 里 “被 确定 "并 不 意味 着 参赛 者 获得 了 “是 ”的 回答 。) 每 个 问题 的 成 本 均 是 1 个 单位 。 





n m 








名 
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5.20 


5.21 


5.22 


5.23 


5.24 


5.25 


5.26 


问 参 赛 者 该 如 何 进 行 ? 他 能 获得 的 期 望 回报 是 多 少 ? 

(c) 继续 (b), Æ v(z) 固 定 , 但 p(xz) 由 计算 机 随机 确定 (然后 向 参赛 者 宣布 ), 结果 又 如 
何 ? 计算 机 希望 让 参赛 者 得 到 的 期 望 回报 最 小 , 那么 p(x ) 该 是 什么 ?此 时 参赛 者 的 
期 望 回报 是 多 少 ? 

带 价值 的 幸 夫 受 码 单词 如 Run!，Heip! 和 Fire! 很 简短 , 不 是 因为 它们 经 常 被 使 用 , 而 多 

半 是 因为 在 需要 用 到 这 些 词 的 场合 中 时 间 宝 贵 的 缘故 。 假 定 X = i 的 概率 为 p;, i = 1， 

2,…,mo 设 4; 为 X = i 对 应 码 字 的 比特 数 ,，c; 表示 当 X = i 时, 码 字 的 每 字母 价值 .于 是 


对 X 描述 的 平均 价值 为 C = >) pede 


(a) EWED LS 的 所 有 Ll. ls E, 对 C 进行 最 小 化 。 忽 略 对 1, 的 默认 整数 限 
制 , GOR C 达到 最 小 值 时 的 这 US lt 及 相应 的 最 小 值 C*。 

(b) 在 所 有 惟一 可 译 码 范 围 内 , 如 何 利用 赫 夫 曼 编 码 程序 以 最 小 化 C? 记 Cu 表示 这 个 
最 小 值 。 

(c) 请 证 明 


C* < Craton <C" + È) pei? 


惟一 可 译 性 的 成 立 条 件 。 证 明 : 码 C 是 惟一 可 译 的 充分 (必要 ) 条 件 是 对 任意 的 k=l, iE 
开 式 
CCziyz 2)=C(Oz)C(z) CC ay) 

是 Xt BID ”的 1-1 映射 。( “必要 "性 是 显然 的 。) 

最 优 码 的 平均 长 度 。 证 明 ; 对 于 概率 分 布 1p,…，, 加 上 的 最 优 D 元 前 缀 码 , 其 期 望 码 长 

LO pists PDH Piss Pm 的 连续 函数 。 事 实 上 ,尽管 概率 分 布 变动 ,最 优 码 的 具体 形 

式 并 不 连续 变化 。 

未 利用 的 编码 序列 。 设 C 为 变 长 码 , 满足 Kraft 不 等 式 且 等 号 成 立 , 但 不 满足 前 缀 条件。 

(a) ER: 存在 字母 表 上 的 某 个 有 限 字符 序列 ， 它 不 是 任何 码 字 序 列 的 衣食。 

(b) ( 选 做 ) 证 明 或 否定 : C 具有 无 限 译 码 延迟 性 质 。 

均匀 分 布 的 最 优 码 。 考 虑 拥有 m 个 等 概率 结果 的 随机 变量 。 显然 此 信 源 的 炳 为 logy m 比 

特 。 

(a) 请 描述 此 信 源 的 最 优 即时 二 元 码 , 并 计算 其 平均 码 长 Lao 

(b) 哪些 m 值 可 使 平均 码 长 L,, SFR H = log,m? 

(c) 我 们 已 经 知道 对 任意 的 概率 分 布 , 均 有 工 宦 +1。 定义 变 长 码 的 元 余 度 为 p= 工 一 
Ho WER m 值 , 编码 元 余 度 可 达到 最 大 , 其 中 2*<m<2**!? 4 moj, 最 坏 
情形 下 元 余 度 的 极限 值 是 什么 ? 

最 优 码 长 。 虽 然 最 优 变 长 码 的 码 字 长 度 是 消息 概率 分 布 |p1, p23，,… ,pm 的 复杂 函数 , 但 可 

以 说 其 中 较 小 概率 的 字符 会 编码 成 较 长 的 码 字 。 假 定 消息 的 概率 分 布 以 递减 的 顺序 给 出 

万 之 加 之 … 之 如 

(a) 证 明 : 对 任意 的 二 元 办 夫 曼 码 , 如 果 最 可 能 出 现 的 消 息 字符 的 概率 p1>24, 则 该 字 
符 分 配 的 码 字 长 度 必 为 1。 

(b) 证 明 : 对 任意 的 二 元 赫 夫 曼 码 ， 如果 最 可 能 出 现 的 消息 字符 的 概率 p1<1/3, 则 必须 
要 求 分 配 该 字符 的 码 字 长 度 之 2。 


合并 。 将 资产 分 别 为 Wi, Woss Wn 的 公司 以 如 下 方式 合并 。 首先 合并 其 中 的 两 个 资产 
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5.27 


5.28 


最 小 的 公司 , 于 是 形成 m -1 个 公司 。 合 并 后 的 资产 是 被 合并 的 两 个 公司 资产 之 和 。 继 续 
此 过 程 , 直至 仅 剩 一 个 子 公 司 为 止 。 设 V 等 于 所 有 合并 的 资产 的 累计 和 。 于 是 V 表示 在 
合并 过 程 中 所 呈报 的 资产 的 总 和 。 例 如 , 若 W= (3,3,2,2), 合并 产生 (3,3,2,2) 一 (4,3， 
3) 一 (6,4) 一 (10), 从 而 V=4+6+10=20。 


(a) 说 明 对 于 由 两 两 合并 而 终结 于 一 个 超大 型 公司 的 所 有 序列 过 程 ，V 是 可 达 的 最 小 资 


产 。( 提 示 : 请 与 赫 夫 曼 编码 比较 。) 
(b) 设 W=DW,, W;= W;/W, 证 明 最 小 合并 资产 累计 和 V 满足 
WH(W)<V<WH(W)+ W (5-147) 


惟一 可 译 性 的 Sardings-Patterson 检验 。 当 且 仅 当 存 在 编码 字符 的 一 个 有 限 序 列 , 它 能 以 两 


种 不 同方 式 分 解 为 两 个 码 字 序列 时 , 编码 不 是 惟一 可 译 的 。 即 出 现下 列 情形 


A 















B, B, eee - B, 


其 中 出 现 的 每 个 A; MB 均 表示 一 个 码 字 。 注 意 到 B 必定 为 A ORR, 而 A 的 剩余 部 
分 为 Bi H RZA (dangling suffix) 。 每 个 悬空 后 缀 依次 是 某 个 码 字 的 前 缀 , 或 者 存在 
某 个 码 字 以 它 为 前 缀 ,同时 又 是 另 一 码 字 的 悬空 后 级 。 最 后 , 序列 中 最 末 的 悬空 后 缀 必定 
是 个 码 字 。 由 此 , 按照 如 下 方式 可 以 设计 出 一 个 关于 惟一 可 译 性 的 检验 (这 本 质 上 就 是 
Sardings-Patterson 检验 [456]) : 构造 由 所 有 可 能 的 悬空 后 缀 组 成 的 集合 S。 编 码 是 惟一 可 
译 的 当 且 仅 当 S 不 含 任何 码 字 。 
(a) 说 明 求 集合 S 的 具体 细则 。 
(b) 假定 码 字 长 度 分 别 为 1;，i = 1,2,… ,m。 斌 估计 集合 S 的 元 素 个 数 的 一 个 好 上 界 。 
(c) 确定 以 下 编码 中 哪些 是 惟一 可 译 的 ; | 

(i) {0, 10, 11} 

(ii) {0, 01, 11} 

(iii) {0, 01, 10} 

(iv) {0, 01} 

(v) {00, 01, 10, 11} 

(vi) {110, 11, 10} 

(vii) {110, 11, 100, 00, 10} 
(d) 对 于 (c) 中 的 任意 惟一 可 译 码 , 若 有 可 能 , 请 构造 出 一 个 起 始 于 某 个 已 知 初始 点 的 无 限 

编码 序列 , 使 其 能 以 两 种 不 同方 式 分 解 为 码 字 序列 。( 这 说 明 惟 一 可 译 性 并 不 蕴含 无 

限 可 译 性 ) 并 证 明 这 样 的 序列 不 可 能 在 前 缀 码 情形 中 出 现 。 
香农 码 。 设 随机 变量 X 取 关 个 值 11,2,…,mz | , PERMA pi, Poss pm。 假定 概率 值 排 
AVE py po Spo BMPS X 编码 的 生成 方法 。 定 义 


F; = 5 Pe (5-148) 
为 所 有 小 于 i 的 字符 的 概率 之 和 。 对 严 E[0,1] 进 行 含 人 ,保留 /; 比特 作为 : 的 码 字 , 其 
中 4=| log + Je 
(a) 证 明 由 此 过 程 构造 出 来 的 编码 是 无 前 级 的 ， 且 平均 长 度 满足 


H(X)XL<H(X)+1 (5-149) 
(b) 请 根据 上 述 方法 构造 概率 分 布 (0.5,0.25,0.125,0.125) 的 编码 。 


B, 
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5.29 


5.30 


5.31 


LRP AOR, ERR, 定义 节点 的 概率 为 该 节点 以 下 所 有 叶子 的 概率 

总 和 。 设 随机 变量 X 服从 一 个 二 进 制 分 布 , 即 对 所 有 的 EX, FERD i, 使 p(x) = 

2 i。 现在 考虑 该 分 布 的 二 元 赫 夫 曼 码 。 

(a) 讨论 对 于 树 中 的 任何 节点 ,其 左边 的 孩子 节点 的 概率 等 于 右边 孩子 节点 的 概率 。 

(b) 设 Xi,X2,…,X, H iid. ~ p(x), 由 plc) AME, 可 将 Xi,X2,…,X, 映射 成 
二 元 序列 Yi, Yass Yi(x,.x,.…,x)。( 该 序列 的 长 度 依赖 于 结果 X1,X,,…,X,。) 利 用 
(a) 证 明 序列 Yi, 2 形成 由 抛掷 均匀 硬币 所 产生 的 序列 , 即 Pri Y; =0} =Pr{ Y; = 


二 = 村， 而 独立 于 Yi, Yo, Y;-1。 于 是 ,被 编码 的 序列 的 炳 率 为 1 比特 /字符 。 
(O 对 于 任何 达到 业界 的 编码 , 其 编码 的 比特 序列 是 不 能 再 被 压缩 的 ， 因 此 其 炳 率 也 就 为 
1 比特 每 字符 。 为 什么 ? 给 出 一 个 有 启发 性 的 讨论 。 
相对 闹 是 偏 码 的 代价 。 设 随机 变量 X 具有 5 种 可 能 的 结果 |1,2,3,4,5} ,考虑 该 随机 变量 
的 两 个 分 布 p(z) 与 g(z)。 


— 
字符 p(x) | C(x) Calz) 


2 
=|% 
2 





1 0 0 


2 10 100 
101 


1110 110 


1111 111 








sl- sl- o * oj 
_ 
= 
© 





(a) 计算 H(p), H(q), D(pl aoM Dla |l p)o 

(b) 表 中 最 后 两 列 是 随机 变量 的 两 个 编码 。 验 证 Ci 关于 p OP EWKEAMH(D). FE, 
Ci 关于 p 是 最 优 的 。 验 证 C 关于 g 也 是 最 优 的 。 

(c) 假如 分 布 为 p, 使 用 编码 C, 那么 码 字 的 平均 长 度 是 多 少 ? HHR HEL? 

(d) 当 分 布 为 g 时 , 如 果 使 用 码 C1, 那么 损失 多 大 ? 

非 奇 异 码 。 在 正文 中 , 主要 集中 在 即时 码 以 及 扩展 为 惟一 可 译 码 的 讨论 。 这 两 种 情形 都 要 

求 码 可 以 重复 地 用 来 编码 随机 变量 的 状态 序列 。 但 是 , 如 果 只 需要 编码 一 个 状态 , 并 且 知 

道 何 时 到 达 了 码 字 的 未 端 , 那么 就 不 需要 惟一 可 译 性 。 事 实 上 , 码 是 非 奇 异 的 就 足够 了 。 

例如 , 若 随机 变量 X 取 三 个 值 : a,b 与 c, 我 们 可 以 将 它们 编码 为 : 0,1 和 00。 这 个 码 是 非 

奇异 的 ,但 不 是 惟一 可 译 码 。 

下 面 假设 随机 变量 X 取 个 值 , 概率 分 别 为 pi poo pm， 并且 其 概率 分 布 按 降序 排列 : 

Pi 之 Pz 之 … 之 pmo 

(a) 将 非 奇 异 二 元 码 视 为 三 个 字符 0, 1 和 STOP 的 三 元 码 , 证 明 随机 变量 X 的 非 奇 异 码 
的 期 望 长 度 Li;1 满 足下 面 的 不 等 式 : 

Las igs 

Et, H,(X) 是 XBA, 单位 为 比特 。 于 是 , 非 奇异 码 的 平均 长 度 与 即时 码 的 平均 长 

度 至 少 相差 一 个 比例 常数 。 





-1 (5-150) 
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(b) 设 Lihsr 为 最 佳 即时 码 的 期 望 长 度 ，LI:; 为 X 的 最 佳 非 奇异 码 的 期 望 长 度 , 证 明 LS, 
<Lisr EH(X)+1。 

(c) 给 出 非 奇 异 码 的 期 望 长 度 小 于 粹 的 一 个 简单 例子 。 

(d) 对 非 奇异 码 可 行 的 码 字 集 为 : 10,1,00,01,10,11,000,…| WER: 如 果 将 最 短 的 码 字 分 


配给 概率 最 大 的 字符 , 那么 Li.1 = pl 达到 最 小 值 。 于 是 , WL, = ly = 1, Ly = Ly 
= 1s = 16 = 2, 等 等 证 明码 字 长 度 的 通 项 公式 为 上 = | log( 志 +1) |, RT Li = 


Lal (去 +1) |. 
(e) 在 (d) 中 已 经 表明 很 容易 找 出 分 布 的 最 优 非 奇异 码 。 只 不 过 在 处 理 平均 长 度 时 需要 有 
点 技巧 。 现 在 来 估计 这 个 平均 长 度 的 界 。 从 (d) 可 以 推出 LY 之 工 全 


Saf ($ +1) ]。 考 虑 下 面 的 差 人 


F(p) = H(X) -L =- >) pilogp, 一 >) pilog( 4 + 1) (5-151) 


用 拉 格 朗 日 乘 子 法 证 明 F(p) 的 最 大 值 在 p; = c/i+2) 达 到 , 其 中 c= 1A H+2 一 
H2), H, 是 调和 级 数 


A k 
HD 十 (5-152) 


O GABET BAA FA BYE fh HES.) 
(f) 继续 证 明 如 下 不 等 式 : 
H(X) -Li SH(X)-Ī (5-153) 
<log(2(H,, +2 一 H,)) (5-154) 


作为 常识 , 我 们 知道 成 ~:ink( 见 Knuth[315])( 更 为 精确 的 表达 式 是 Hi =Ink+ y+ 去 
-iat pop 其 中 0<e<1/252n5, Y= 欧 拉 常数 =0.577…)。 利 用 该 公式 或 者 
简化 的 近似 H,<<Ink + 1， 此 不 等 式 可 以 通过 二 的 积分 得 到 证 明 。 因 此 , 可 以 推出 


H(X) 一 Lt! 之 loglogm +2。 于 是 ,我 们 得 到 
H(X) — loglog|¥’| -2<L sf... H(X) +1 (5-155) 
这 表明 , 非 奇异 码 不 可 能 比 即 时 码 表现 得 更 好 。 
5.32 坏 葡 欧 酒 。 有 6 瓶 葡萄 酒 , 已 知 其 中 的 一 瓶 已 经 坏 了 (变味 )。 通 过 观察 酒 瓶 ， 可 以 判定 第 


; 瓶 是 坏 酒 的 概率 为 户 ， 其 中 ( 户 ， 思 ,26)= (S855 .95 +95) > 而 且 通 过 品尝 


以 完全 确定 哪 瓶 是 坏 酒 。 假 如 你 每 次 品尝 一 瓶 。 请 选择 品尝 的 顺序 使 得 找 出 那 瓶 坏 酒 的 
期 望 次 数 最 小 。 记 住 , 如果 前 5 瓶 品尝 都 通过 了 , 那么 第 6 瓶 就 不 必 再 品尝 了 。 

(a) 需要 品尝 的 期 望 次 数 是 多 少 ? 

(b) 哪 瓶 酒 应 该 最 先 品尝 ? 

现在 你 学 机 灵 了 。 在 第 一 次 采样 时 , 取 几 瓶 酒 的 样本 混合 倒 人 一 只 干净 的 玻璃 杯 中 。 然 
后 , 对 这 个 混合 样本 进行 品尝 。 如 此 继续 , 混合 再 品尝 , 直到 发 现 了 坏 酒 后 停止 。 

(a) 为 确定 哪 瓶 是 坏 酒 , 需要 品尝 的 最 小 期 望 次 数 是 多 少 ? 


_ 
ws 
N 
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5.33 


5.34 


5.35 


5.36 


5.37 


(b) 该 首先 品尝 哪 种 混合 情形 ? 
赫 夫 曼 与 香农 。 设 随机 变量 X 取 三 个 值 , 其 概率 分 别 为 0.6, 0.3 和 0.1。 
(a) X 的 二 元 赫 夫 曼 码 的 码 字 长 度 是 多 少 ? X 的 二 元 香农 码 的 码 字 长 度 


(zz)= | (365) | 又 是 多 少 ? 
(b) 求 最 小 整数 D, 使 得 D 元 字母 表 的 香农 码 与 赫 夫 曼 码 的 期 望 码 字 长 度 相等 。 
树 构 造 的 赫 夫 概算 法 。 考 虑 如 下 问题 : 假设 在 时 刻 TT. <T,, 获得 了 m 个 二 元 信 
号 Si,S;，…，,S。, 通 过 两 输入 门 (two-input gate) 求 它们 的 和 SIOS- Sn, 每 个 门 都 有 
一 个 时 间 单 位 滞后 , 尽 可 能 快 地 获得 最 终结 果 。 一 种 简单 的 贪 禁 算法 是 将 时 间 最 早 的 两 
个 结果 组 合 , 也 就 是 在 时 刻 maxi Ti, Ta) +1 得 到 部 分 结果 。 这 样 产 生 了 新 的 问题 ， 即 在 
时 刻 maxi Ti, T2} +1, 735°, Tn 获得 的 信号 Si 中 S:,S3,…,S。。 然 后 , 对 时 间 列 表 T È 
THY, 同时 应 用 以 上 的 合并 程序 , 重复 这 个 过 程 , 直到 获得 最 终结 果 。 
(a) 讨论 , 从 速度 方面 讲 上 述 程序 是 最 优 的 , 这 是 因为 该 方法 构造 的 线路 使 得 最 终结 果 的 
获得 速度 尽 可 能 快 。 
(b) 证 明 该 程序 找到 的 树 使 得 下 列 目标 函数 最 小 化 
C(T)=max( Ti+ 4;) (5-156) 
EF, T; 为 对 应 于 第 i 个 叶子 的 结果 的 获得 时 间 ， LABi 个 叶子 到 根 的 路 径 长 度 。 
(c) 证 明 : 对 于 任意 树 T, WA 
C(T) > log, (X325) (5-157) 
(d) 证 明 存 在 一 棵 树 , 使 得 
C(T) < log (227)+1 (5-158) 


于 是 , 在 此 问题 中 ， loge ( 3) 2 ) 是 与 炳 对 应 的 量 。 


随机 变量 的 生成 。 如 果 想 生 成 一 个 随机 变量 X, 使 得 

1 概率 为 p 

0 概率 为 1 一 p 
你 抛掷 均匀 硬币 得 到 序列 Z1,Z,,…, Zn, HPN 是 生成 随机 变量 X 所 需要 的 抛掷 次 数 
(随机 的 )。 请 找 出 一 种 利用 Zi, Zes Zn 生成 X 的 好 方法 。 证 明 E N 委 2。 

最 优 码 字 长 度 

(a) 1=(1,2,3) 可 以 作 二 元 替 夫 曼 码 的 码 字 长 度 吗 ? (2,2,3,3) 呢 ? 

(b) 什么 样 的 码 字 长 度 1 = (41,7,,…) 来 自 于 二 元 赫 夫 曼 码 ? 

码 。 下列 哪些 码 是 

(a) 惟一 可 译 的 ? 

(b) 即时 的 ? 


x= (5-159) 


C, = {00,01,0} 

C= {00,01,100, 101,11} 
C;= 10,10,110,1110,-:-| 
Cs = {0,00 ,000,0000} 
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5.38， 幸 夫 受 。 对 下 列 丙种 情形 ,分 别 求 出 (pp6o)= (383k 15k AARE D. 


25°25’25’25°25°25 
元 码 及 其 期 望 码 长 。 
(a) D=2 
(b) D=4 
5.39 Raiki E C:X 一 10,1} "为 非 奇 异 码 但 不 是 惟一 可 译 码 , 万 (X) 为 X A. 
(a) 比较 H(C(X))5 H(X), 
(b) 比较 H(C(X")) 与 H(X”)。 
5.40 Aba, 设 为 字母 表 {1,2,3} 上 的 随机 变量 且 服 从 分 布 


1 ,概率 为 六 
X=42, 概 率 为 二 


3 ,概率 为 二 
Xt X 的 数据 压缩 码 的 码 字 设 计 为 
0, 4x=1 
co z=2 
11, 当 z=3 
设 X1,X,,… 为 服从 上 述 分 布 的 独立 辣 分 布 序列 ，Z12223… = C(X1)C(X2)… 为 串联 相应 


码 字 所 导出 的 二 元 字符 串 。 例 如 , 122 BMT 01010。 
(a) RAR H) HZ), 量 纲 为 比特 每 字符 。 注 意 ，2 是 不 可 再 压缩 的 。 


(b) 下 面 设 编码 为 
00, 当 zx=1 
cojos x=2 


01,4 «=3 
RAE H(Z). 
(c) 最 后 , 设 编码 为 
00, 当 z=1 
co , 当 工 =2 
01, 当 过 =3 
RE HZ). 
5.41 最 优 码 。 设 11,1;,… ,Li0 是 关于 概率 分 布 Pi1 宇 py 宇 … 这 pw 的 二 元 赫 夫 曼 码 的 码 字 长 度 。 
假定 将 最 后 一 个 概率 密度 值 分 裂 得 到 新 分 布 pi,p2，…，, Po apos (1 一 a) pw, 该 如 何 叙 述 这 
个 新 分 布 的 最 优 二 元 码 字 长 度 l,l slu? 其 中 0 委 c 委 1。 
5.42 三 元 码 。 下 列 哪 一 组 码 字 长 度 可 以 成 为 三 元 赫 夫 曼 码 的 码 字 长 度 ? 哪 组 不 能 ? 
(a) (1,2,2,2,2) 
(b) (2,2,2,2,2,2,2,2,3,3,3) 
5.43 分 段 赫 夫 曼 。 假 定 用 来 描述 随机 变量 XX 一 p(x) 的 码 字 总 是 起 始 于 1A ,B,Cl 中 的 某 个 字 
符 , 然后 紧 接 10,1} 中 的 二 值 数字 。 于 是 ， 我 们 得 到 了 关于 第 一 个 字符 的 三 元 码 和 随后 的 
二 元 码 。 给 出 下 列 概率 分 布 的 最 优 惟一 可 译 码 (字符 的 最 小 期 望 数 )。 


=(# 15 12 10 8 2) 
69 69 69 69°69’ 69 





(5-160) 
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5.44 RHR p= (sho TQ pg ) 的 最 优 二 元 编码 的 码 字 长 度 。 

5.45 随机 20 问题 。 设 X 为 11,2,3,… ,zz 上 的 均匀 分 布 ,假定 m = 2"。 我 们 随机 提问 : XE 
S1? XES? …, 直至 仅 剩 下 一 个 整数 为 止 。11,2,3,…, m} 中 的 所 有 2” 个 子 集 S W 
到 的 概率 是 相同 的 。 
(a) 不 失 一 般 性 , 假设 X = 1 是 该 随机 目标 , 那么 目标 2 与 目标 1 对 & 个 问题 具有 相同 答 

案 的 概率 为 多 少 ? 

(b) 在 12,3,…，zmj 中 , 与 正确 目标 1 具有 相同 问题 答案 的 期 望 目 标 数 是 多 少 ? 
(o) 假设 我 们 提问 + V 序 个 随机 问题 。 与 答案 一 致 的 错误 目标 期 望 数 是 多 少 ? 


(d) 利用 马尔 可 夫 不 等 式 Pri X>ml<t, 证 明 当 ”一 co 时 , 误差 概率 ( 即 还 剩余 一 个 或 多 
个 错误 目标 ) 趋 于 0。 


历史 回顾 


157 本 章 中 有 关 素 材 的 基本 知识 均 可 在 香农 的 开创 性 论文 [469] 中 找寻 到 ,其 中 有 香农 信 源 编码 
定理 及 有 关 编 码 的 几 个 例子 。 他 在 论文 中 说 明了 一 个 简单 的 编码 构造 过 程 ( 见 习题 5.28 所 述 )， 
这 对 费 诺 的 影响 很 大 , 现在 该 方法 已 称 为 香农 一 费 诺 编码 构造 程序 。 
关于 惟一 可 译 码 的 Kraft 不 等 式 首先 是 McMillan[ 385] 给 予 证 明 的 ; 而 书 中 给 出 的 证 明 归 功 
于 Karush[ 306]。 赫 夫 曼 编码 程序 首先 由 赫 夫 曼 [283] 发 现 并 给 予 证 明 其 是 最 优 的 。 
在 最 近 几 年 中 , 相当 多 的 研究 兴趣 集中 在 如 何 设 计 信 源 编码 , 使 之 符合 特殊 的 应 用 目的 ,如 
磁 记 录 。 在 这 样 的 情形 下 , 目的 就 是 设计 出 好 的 编码 , 使 得 输出 序列 满足 一 定 的 性 质 。 这 个 主题 
的 某 些 结论 在 Franazek[219]，Adler et al. [5] 及 Marcus[370] 中 均 有 所 论述 。 
算术 编码 程序 对 于 Elias 所 论述 的 香农 - 费 诺 编码 (未 发 表 ) 起 着 根本 性 的 作用 , 且 jelinek 
[297] 对 此 进行 了 分 析 。 在 文中 所 述 的 无 前 级 码 构造 程序 得 归功 于 Gilbert 和 Moore[ 249 ]。 
Shannon-Fano-Elias 方法 能 够 扩展 到 序列 是 基于 Cover[120] 中 提 到 的 枚 举 方法 ,并且 用 来 刻画 
Pasco[ 414] 以 及 Rissanen [441] 中 提 到 的 有 限 精 度 算法 。 香 农 码 的 竞争 最 优 性 已 被 证 明 , 见 Cover 
[125], 并 且 推 广 到 赫 夫 曼 码 , I Feder[203]。5.11 节 中 的 源 自 抛掷 均匀 硬币 过 程 的 离散 分 布 生 
成 问题 得 益 于 Knuth 和 Yao[317] 的 研究 工作 。 





第 6 章 ”博弈 与 数据 压缩 


EREK, 信息 论 与 博弈 似乎 风 马 牛 不 相 及 。 然 而 , 正如 我 们 将 要 看 到 的 , 赛马 中 的 投资 增 
长 率 与 赛马 的 箭 率 之 间 有 很 强 的 对 偶 性 。 因 为 增长 率 与 粒 率 之 和 为 常数 。 为 了 证 明 这 个 结论 , 将 
涉及 如 何 证 明 边 信 息 的 金融 价值 等 于 赛马 与 边 信息 之 间 的 互信 息 。 从 投资 的 角度 看 , 赛马 是 股票 
市 场 的 特殊 情形 , 将 在 第 16 章 讨论 。 

我 们 也 将 揭示 如 何 使 用 两 个 完全 相同 的 马 民 在 一 系列 下 注 过 程 中 的 相对 收益 (简称 收益 ) R 
计 增 长 率 来 压缩 随机 变量 序列 。 最后, 我 们 利用 这 些 博 弈 策略 来 估计 英文 的 炉 率 。 


6.1 赛马 


假设 在 一 场 赛马 中 有 m 匹 马 参赛 , OF i 匹 参 赛马 获胜 的 概率 为 p;。 如 果 第 i 匹 马 获 胜 , 那 
么 机 会 收益 为 o; 比 1( 即 在 第 i 匹 马 上 每 投资 一 美元 , 如 果 赢 了 ,会 得 到 o 美元 的 收益 ; 如 果 输 
T, 那么 回报 为 0)。 . 

有 两 种 流行 的 马 票 : aM 1 (a-for-1) 和 65 1 (5-to1)。 第 一 种 是 指 在 开赛 前 购买 的 马 
票 一 一 马 民 赛 前 用 一 美元 现金 来 购买 一 张 机 会 收益 为 a 美元 的 马 票 , 一 旦 他 的 马 票 对 应 的 马 在 
比赛 中 赢 了 , 那么 他 持 有 的 那 只 马 票 在 赛 后 兑换 a 美元 , 否则 , 他 的 马 票 分 文 不 值 。 而 第 二 种 马 
票 是 在 赛 后 交割 的 , 机 会 收益 为 5:1, 一 旦 他 的 马 票 对 应 的 马 输 了 , 该 马 民 赛 后 必须 去 交纳 一 美 
元 的 本 金 。 如 果 赢 了 , 赛 后 可 以 领取 5 美元。 所以, 当 5=a 一 1 时 , a hl 与 5 内 1 两 种 马 票 的 
机 会 收益 等 价 。 例 如 , 掷 硬币 的 公平 机 会 收益 倍数 是 2 况 1 或 者 1 内 1, 其 他 则 认为 是 平等 机 会 
收益 倍数 。 

假设 某 马 民 将 其 资金 分 散 购买 所 有 参赛 的 马匹 的 马 票 ，b; 表示 其 下 注 在 第 i 匹 马 的 资金 占 总 
资金 的 比例 , 那么 6.250 且 习 2 = 1。 如 果 第 i 匹 马 获胜 , 那么 该 马 民 获 得 的 回报 是 下 注 在 i 匹 马 
的 资金 的 o; 倍 , 而 下 注 在 其 他 马匹 上 的 资金 全 部 输 掉 。 于 是 , 赛马 结束 时 , 如 果 第 i 匹 马 获胜 ， 


那么 该 马 民 最 终 所 得 的 资产 为 原始 财富 乘 以 因子 bo 而且 这 样 发 生 的 概率 为 pio 为 了 记号 方 


E, 我 们 将 在 本 章 中 交替 使 用 5; 与 6(i) ,而 不 加 区 别 。 

收益 在 比赛 结束 时 是 一 个 随机 变量 , 马 民 希望 该 随机 变量 的 值 “最 大 化 ”。 马 民 希 望 将 所 有 资 
金 购 买 其 认为 能 够 获胜 的 同一 匹 马 的 马 票 ,以 期 获得 最 大 的 回报 (此 时 最 大 回报 应 为 pio) X 
样 做 显然 是 充满 风险 的 , 很 有 可 能 将 所 有 钱 一 次 都 输 光 。 

考虑 到 马 民 可 以 在 赛马 中 反复 下 注 , 我 们 可 以 得 到 一 些 显 然 的 结果 。 假设 马 民 把 所 有 资金 不 
断 重复 地 购买 马 票 , 那么 他 的 收益 就 是 每 次 比赛 中 利润 的 乘积 。 令 S, 为 该 马 民 在 第 场 赛 马 结 
FRAT ABET, 那么 

S, = TI s(x») (6-1) 

其 中 SC(X)=6(X)o(X) 是 当 第 X 匹 马 获胜 时 , 马 民 购买 该 只 马 票 所 得 收益 的 乘积 因子 。 

定义 ”相对 收益 S(X)=6(X)o(X) 是 一 个 乘积 因子 ,如 果 马 民 中 了 X 马 票 , 那么 他 的 相对 


收益 就 是 原始 财富 乘 以 该 因子 。 
EX 一 场 赛马 的 双 倍 率 为 
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W(b,p) = E(logS(X)) = 2 prlogbior (6-2) 
双 倍 率 的 定义 的 合理 性 由 如 下 定理 给 出 。 
定理 6.1.1 假设 赛马 的 结果 义 | ,XX,，,… ,XX, 为 服从 p(x) 的 独立 同 分 布 序 列 ， 那么 , 该 马 民 
在 策略 b 之 下 的 相对 收益 将 以 指数 因子 为 W(b,p) 呈 指数 增长 ， 即 
S,=27W (bp) (6-3) 
证 明 : 由 于 独立 的 随机 变量 的 函数 仍然 是 独立 的 , 从 而 logS(Xi) ,logS(X,),… ,logS(X,) 也 
是 独立 同 分 布 的 。 由 弱 大 数 定律 可 得 ， 


logS, = È > iogS(X) 一 E(ogS(X)) WR (6-4) 
FE, ~ 
S,=27W (bP) (6-5) 口 
由 于 马 民 的 相对 收益 是 按照 2wwtb 方 式 增长 , 因此, 接 下 来 是 如 何在 所 有 投资 组 合 策略 b 
的 集合 中 寻找 到 使 得 W(b,p) 最 大 化 的 策略 。 
定义 ”如 果 选 择 b 使 得 双 倍率 W(b,p) 达 到 最 大 值 W (p), 那么 称 该 值 为 最 优 双 倍率 ; 
W (p) = maxW(b,p) = > pilogbo; (6-6) 


bb 20,5 b21 i= 


W(b,p) 作 为 b 的 函数 , 在 约束 条 件 沁 6b;=1 之 下 求 其 最 大 值 。 AAS ia FRR H RT R 
数 并 且 改 变 对 数 的 基底 (这 不 影响 最 大 化 b) , WA, 


Jb) = È pnb; + AX b; (6-7) 
关于 5; 求 导 得 到 
站 = 人 Ail (6-8) 


为 了 求 得 最 大 值 , 令 偏 导数 为 0， 从 而 得 出 


六 = - 2 


F (6-9) 


将 它们 带 入 约束 条 件 江 65; =1 可 得 到 X= -1 以 及 6; = p;。 从 而 ,我 们 得 到 b=p 为 函数 J(b) 的 驻 
点 。 我 们 不 是 利用 二 阶 导数 来 判定 它 是 否 为 最 大 值 点 , 因为 那样 太 麻 烦 。 取 而 代 之, 使 用 最 平常 
的 方法 ; 先 猜 测 后 验证 。 我 们 将 在 下 面 定 理 中 证 明 按照 比例 b=p 下 注 是 最 优 的 策略 。 按 比例 下 
注 称 为 Kelly 博弈 [308]。 

定理 6.1.2( 按 比例 下 注 是 对 数 最 优化 的 ) 最 优化 双 倍率 的 公式 计算 如 下 

1 W* (p) = È p;logo; ~ H(p) (6-10) 

并 且 按 比例 b* =pB 的 下 注 策略 可 以 达到 该 值 。 

证 明 : 我 们 将 函数 W(b,p) 重 新 改写 , 使 得 容易 看 出 何 时 取 最 大 值 : 


W(b,p) = È p;log 5; 0; (6-11) 
_ bi . - 
= Dpilo (pip: os| (6-12) 
= Ð p;logo; - H(p) — D(p || b) (6-13) 
<J p;logo; — H(p) (6-14) 


等 号 成 立 的 充 要 条 件 是 b= p( 即 马 民 应 该 按照 每 匹 马 获胜 的 概率 按 比例 分 散 地 购买 马 票 )。 口 
例 6.1.1 考虑 仅 有 两 匹 马 参赛 的 特殊 情形 。 假设 马 1 获胜 的 概率 为 po 马 2 获胜 的 概率 为 
Poo 假设 两 匹 马 的 机 会 收益 率 均等 ( 即 两 只 马 票 均 为 2 竞 1 方式 ) 。 此 时 的 最 优 下 注 方法 为 按 概 
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率 比 例 下 注 , Bb, = p1,62= pro 而 最 优 双 倍率 为 W* (p) = È plogo; - H(p)=1- H(p), 按照 这 
样 的 增长 率 , 将 导致 相对 收益 无 限 增长 : 
S, 2277 H(P)) . (6-15) 

于 是 , 我 们 证 明了 对 于 一 系列 独立 同 分 布 的 赛马 , 如 果 马 民 将 其 全 部 现金 反复 购买 马 票 而 不 
是 揪 住 现金 不 动 , 那么 按 比例 下 注 是 相对 收益 增长 最 快 的 策略 。 

接 下 来 我 们 考虑 一 种 特殊 情形 ， 即 关于 某 种 分 布 具有 公平 机 会 收益 倍率 的 情形 。 换 言 之 , 除 
了 知道 1/o;=1 之 外 , 无 其 他 信息 可 用 。 此 时 , 记 r;=1/o;, 将 其 视 为 参赛 马匹 的 一 种 概率 密度 
函数 (这 是 用 来 估计 赛马 获胜 概率 的 所 谓 马 民法 ) 。 在 此 记号 之 下 , 双 倍 率 可 以 写 为 


W(b,p) = È p;logd; o; (6-16) 
= E pjlog( 22+ | (6-17) 
=D(p || r)- D(p || b) (6-18) 


BBB HT HSE S ATRE: 双 倍 率 正 好 是 马 民法 的 估计 到 真实 分 布 的 距离 与 马 民 
下 注 策略 到 真实 分 布 的 距离 之 间 的 差 值 。 所 以 , 马 民 要 赚钱 ,只 有 当 他 的 估计 (由 bb 表示) 比 马 民 
法 所 得 的 估计 更 好 。 

一 种 更 特殊 的 情形 是 : 如 果 每 只 马 票 的 机 会 收益 倍率 为 m hl 此 时 , 机 会 收益 均等 , 服从 
均匀 分 布 且 最 优 双 倍率 为 


W*(p)=D(pil +) = logm -Hp) (6-19) 


在 此 情形 下 可 以 清楚 地 看 出 数据 压缩 与 双 倍率 之 间 的 对 偶 关 系 。 

定理 6.1.3( 守 恒定 理 ) 对 于 均匀 的 公平 机 会 收益 倍率 ， 

W* (p) + H(p) = logm (6-20) 
FL, WERKE HER, 

HERDE, 马 民 的 收益 就 翻 一 番 。 BLT EM) AO LEE, 马 民 的 获 利 越 丰厚 。 

在 上 述 分 析 中 , 假设 马 民 倾 襄 投资 。 一 般 来 讲 ， 应 当 允 许 马 民 有 选择 地 保留 一 部 分 现金 。 令 
bO 为 原始 财富 中 预 留 为 现金 的 比例 ,5(1) b2), ,5b(m) 为 分 别 购买 每 匹 马 的 马 票 的 资金 比 
例 。 那 么 在 赛事 结束 时 ,最 终 资产 与 原始 财富 的 比例 ( 即 相 对 收益 ) 为 

S(X)=6(0) + 6(X)o(X) (6-21) 

此 时 的 最 优化 策略 依赖 于 机 会 收益 , 可 能 并 不 是 按 比 例 购买 马 票 这 种 单一 形式 。 我 们 将 通过 下 面 
三 种 情况 进行 讨论 : 

1. 服从 业 种 分 布 的 公平 机 会 收益 售 让 :站 二 =1。 对 于 公平 机 会 收益 信 率 ,保留 现金 的 选择 


并 不 影响 分 析 。 因 为 我 们 可 以 在 保留 现金 的 情况 下 按 8, = ,i 一 1,2,…,m 比例 下 注 在 


第 i 匹 马 得 到 的 效果 是 相同 的 。 此 时 S(X) =1 与 到 底 哪 只 马 票 能 够 获胜 没有 关系 。 TH, 
马 民 到 底 保 存 多 少 现金 没有 什么 关系 , 该 部 分 现金 等 同 于 马 民 按 比 购买 了 每 只 马 票 。 从 
而 要 求 马 民 必 须 将 资金 全 部 下 注 的 假设 并 不 会 影响 分 析 。 即 按 比 例 下 注 策略 最 优 。 


2. 超 公平 机 会 收益 倍率 : 吕 直 <1。 这 种 比赛 的 机 会 收益 往往 优 于 公平 机 会 收益 倍率 的 赛事 ， 
所 以 , 任何 人 都 希望 将 全 部 资金 都 押 进 去 而 不 必 保留 现金 。 在 这 种 比赛 中 , 依然 是 按 比例 
下 注 策略 最 优 。 但 是 ,也 可 以 选择 满足 已 = c E Gtp = 1/ 了 十) 的 策略 b 使 其 构成 一 


0; 
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MKF RER “A 2” (Dutch book)。 在 不 需要 知道 什么 马 会 获胜 的 情况 下 就 能 够 获 
得 相对 收益 ob: = co 在 这 种 分 配方 案 下 , 该 马 民 的 相对 收益 将 依 概率 1 (换言之 , 无 风险 


地 ) 变 成 S(X)= Vd c>1。 HM BSE, 在 现实 生活 中 很 难 磁 到 这 样 的 机 会 。 顺 便 提 
一 下 ， 大 弃 赔 提供 的 下 注 策略 尽管 无 风险 ， 但 它 并 没有 使 得 双 倍率 达到 最 优化 。 
3. 次 公平 机 会 收益 倍率 : 开 十 >1。 此 情形 更 代表 现实 生活 。 赛 马 组 织 者 们 总 是 要 比 所 有 马 


民 技 高 一 筹 。 在 此 种 赛马 中 , 马 民 只 应 该 用 一 部 分 资金 买 马 票 ， 而 将 其 他 的 现金 揪 住 ， 这 
是 最 起 码 的 知识 。 此 时 , 按 比例 下 注 不 再 是 对 数 最 优 了 。 利 用 库 恩 - 塔 克 (Kuhn-Tucker) 
条 件 (习题 6.6.2) 能 够 得 到 一 个 参数 形式 的 最 优 策 略 ; 它 有 一 个 简单 的 解释 是 “注水 式 ”。 


6.2 博弈 与 边 信息 


假设 马 民 具有 一 些 关于 赛马 的 成 功 和 失败 的 信息 。 比 如 , 马 民 或 许 拥有 某 些 参 赛马 匹 的 历史 
记录 , 那么 这 些 边 信 息 到 底 有 多 少 价值 呢 ? 

关于 此 类 信息 的 经 济 价值 的 一 个 定义 就 是 因此 信息 而 导致 的 相对 收益 的 增 量 。 依照 6.1 节 ， 
我 们 当然 采用 因 该 信息 而 导致 的 双 倍 率 的 增 量 来 度量 信息 价值 。 接 下 来 导出 互信 息 与 双 倍 率 增 
量 之 间 的 联系 。 

为 了 正式 定义 这 个 概念 , 假设 XE 11,2,… m AEX RBR, 它 获 胜 的 概率 为 pl), 机 会 
收益 率 为 : o(z) 竞 1。 设 (X,Y) 的 联合 概率 密度 函数 为 p(x,y)。 用 b(aly)20, Dbl(z 1 y) = 
1 记 已 知 边 信息 Y 的 条 件 下 的 下 注 策略 。 此 处 5(z|y) 理 解 为 当 得 知 信息 y 的 条 件 下 ,用 来 买 第 
z 只 马 票 的 资金 的 比例 。 对照 前 面 的 记号 , 将 6(2)50, Db(c) =1 表示 为 无 条 件 下 注 策略 。 

设 无 条 件 双 倍率 和 条 件 双 倍率 分 别 为 


W*(X) = max >) p(x )logb(x)o(«) (6-22) 
W*(X1 Y) = max 2 p(2,y)logb(x | y)o(x) (6-23) 

再 设 
AW=W*(X| Y)- W*(X) (6-24) 


对 于 独立 同 分 布 的 赛马 序列 (X,, Y;), 可 以 看 到 : 当 具 有 边 信息 时 , 相对 收益 增长 为 2"w IY, 
当 无 边 信息 时 , 相对 收益 增长 率 为 2 O, 
定理 6.2.1 由 于 获得 某 场 赛马 X 中 边 信 息 Y 而 引起 的 双 倍 和 率 的 增 量 人 W 满足 
AW=I(X;Y) (6-25) 
证 明 : 在 具有 边 信 息 的 条 件 下 , 按照 条 件 比例 买 马 票 , 即 5* (xz1y) = p(xz1y), 那么 关于 边 
信息 Y 的 条 件 双 售 率 W* (XIY) 可 以 达到 最 大 值 。 于 是 ， 


W"*(X| Y) = maxE[logS] = max> p(x,y)logo(z)b(z|y) (6-26) 
= Dp(x,y)logo(x) p(xly) (6-27) 
= > p(x) logo(x) - H(X| Y) (6-28) 
当 无 边 信 息 时 , 最 优 双 倍率 为 
W*(X)= D p(x)logo(z) — H(X) (6-29) 
从 而 ,由 于 边 信 息 立 的 存在 而 导致 的 双 倍率 的 增 量 为 
AW=W*(X|Y)-W*(X)=H(X)-H(X|Y)=I(X;Y) (6-30) O 


此 处 双 倍率 的 增 量 正好 是 边 信息 了 与 赛马 X 之 间 的 互信 息 。 毫 无 疑问 , 独立 的 边 信 息 并 不 
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会 提高 双 倍 率 。 
这 个 关系 式 也 可 以 推广 到 更 一 般 的 股票 市 场 (第 16 章 ) 。 当 然 对 于 股票 市 场 我 们 仅 能 证 明 
不 等 式 AWS], 等 式 成 立 的 充分 必要 条 件 是 该 市 场 为 赛马 市 场 。 


6.3 HKHREBRAMR 


在 赛马 中 , 边 信 息 最 通常 的 表现 形式 是 所 有 参赛 马匹 在 过 去 比赛 中 的 表现 。 如果 各 场 赛 马 之 
间 是 独立 的 , 那么 这 些 信息 毫 无 用 途 。 如 果 假 设 各 场 赛马 构成 的 序列 之 间 存 在 关联 关系 ,那么 只 
要 允许 使 用 以 前 比赛 的 记录 来 决定 新 一 轮 赛 马 的 下 注 策略 , 就 可 以 计算 出 有 效 的 双 倍 率 。 

假设 由 各 场 赛马 结果 组 成 的 序列 |X, | 是 一 个 随机 过 程 。 假设 每 场 赛马 的 下 注 策略 依赖 于 此 
前 的 各 次 比赛 的 结果 。 此 时 ,具有 均匀 的 公平 机 会 收益 倍率 的 比赛 的 最 优 双 倍率 为 

W* (和 XXX 
=E[ max wyEllogS (Xe) | Xi-1, Xe-20 XJ] 


WX Kage? 
= logm — H(X; | Xp-1>Xp—25°77 X4) (6-31) 
该 最 优 双 倍 率 可 以 在 b* (ay | zx-1,… 21) = PC ay r-i ie IAF. 
当 第 ” 场 赛 马 结束 时 , 马 民 的 相对 收益 变 成 


S, = TI s(x) . (6-32) 
且 增 长 率 的 指数 (假设 为 m 竞 方式 ) 为 


TElogS, = 1 S ElogS(X;) (6-33) 


= +S (logm - H(X;| Xi-1, Xi-2 X1)) (6-34) 
_ H(X,,X2,°:, Xn) 


n 


= logm 


(6-35) 


LHX X AE n 场 赛马 的 平均 篇。 对 于 炉 率 为 HC) 的 平稳 过 程 , 对 公式 (6-35) 两 边 取 极 


限 可 得 
lim LElogS, + H(X) =logm (6-36) 


此 公式 再 次 说 明 , HBS RS AA BRK 
公式 (6-36) 中 期 望 的 运算 在 遍历 过 程 的 条 件 下 可 以 去 掉 。 第 16 章 将 证 明 一 个 遍历 的 赛马 序列 ， 
S,=2"" 依 概率 1 (6-37) 
其 中 W=logm 一 H(X) 且 
H(X )=lim TH(X1, Xa, X,) (6-38) 


例 6.3.1 ( 红 与 黑 ) 用 扑克 有 牌 代替 马匹, 随 着 时 间 的 流逝 , 结果 变 得 越 来 越 可 以 预测 。 考 虑 
猜测 下 一 张 扑 克 牌 颜色 , 一 副 扑 克 分 成 26 张 红 的 和 26 张 黑 的 。 猜 测 下 一 张 发 出 的 牌 是 红色 还 是 
黑色 ,直到 所 有 有 牌 发 完 。 我 们 也 假设 该 游戏 的 机 会 收益 为 2 41, M, 如 果 猜 对 了 ,就 可 以 得 到 下 
注 于 正确 颜色 的 赌注 的 两 倍 回报 。 假如 红色 和 黑色 出 现 的 概率 相同 , 那么 这 种 游戏 是 公平 机 会 收 
益 的 。 

考虑 以 下 两 种 下 注 方案 : 

1. 如 果 顺 序 地 下 注 , 那么 可 以 计算 出 下 一 张 牌 的 条 件 概率 并 且 按 该 条 件 概率 为 比率 下 注 。 
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于 是 , 将 按照 ( 红 , 黑 ) 的 概率 分 布 为 (十 ,二 ) 下 注 第 一 张 ， 当 第 一 张 为 黑色 时 ,再 以 
(36 BS ) 为 概率 分 布下 注 第 二 张 。 如 此 下 去 。 
2. 另 一 种 , 我 们 可 以 一 次 性 下 注 52 张 牌 构成 的 序列 。 那么 有 26 张 红 色 和 26 张 黑色 的 扑克 


牌 可 以 得 出 | 26 } 种 可 能 的 序列 ， 且 每 个 序列 出 现 的 概率 相等 。 寺 是 , 按 比例 下 注意 味 着 


将 现金 分 成 (36 } 份 ， 对 每 一 个 序列 下 注 1/ ( 25 ] 的 资金 。 当 然 假设 我 们 猪 对 或 猜 错 每 张 
扑克 牌 是 红 是 黑 的 概率 各 占 一 半 。 
接 下 来 讨论 这 两 种 方案 是 等 价 的。 例如 ,52 张 牌 组 成 的 所 有 序列 中 , 第 一 张 是 红色 的 所 有 序 


[IGT] 列 恰好 占 一 半 ,所 以 按照 方案 2 周 红 色 也 是 一 半 资 金 。 一 般 地 ,如 果 将 {3% ) 种 可 能 的 序列 视 为 基 
本 事件 ,那么 可 以 验证 : 对 每 个 基本 事件 下 注 1/ (36 ) 资 金 , 则 所 有 下 注 的 策略 在 任何 场合 都 是 


与 红色 与 黑色 在 此 场合 出 现 的 概率 成 比例 。 既 然 我 们 只 将 1/ ( 26 } 资 金 下 注 在 可 能 的 基本 事件 


上 , 而 且 只 下 注 在 使 得 相对 收益 增长 率 是 2 的 因子 的 观测 序列 上 , 对 于 其 他 序列 分 文 不 投 , 那 
么 ,最终 相对 收益 为 


252 
So = 7 =9.08 (6-39) 


52 
(25) 
更 有 趣 的 是 , 此 回报 并 不 依赖 于 具体 的 序列 。 这 就 像 AEP 中 所 说 的 , 任何 序列 都 有 相同 的 回 
报 。 从 这 个 角度 来 讲 , 所 有 序列 都 是 典型 的 。 


6.4 SH 


虽然 英文 文本 是 一 个 重要 的 信 源 , 但 英文 到 底 是 不 是 一 个 平稳 遍历 过 程 却 并 不 是 一 目 了 然 
的 。 很 可 能 不 是 ! 然而 我 们 感 兴趣 的 是 英文 的 粹 率 。 我们 将 讨论 对 英文 的 各 种 各 样 的 随机 逼近 。 
随 着 逐步 提高 模型 的 复杂 度 , 可 以 生成 一 些 看 起 来 很 像 英文 的 文本 。 这 样 的 随机 模型 可 以 用 来 压 
缩 英文 文本 。 随 机 通 近 程度 越 好 , 压缩 性 能 越 强 。 

为 了 讨论 方便 假设 英文 的 字母 表 由 26 个 字母 和 空格 共计 27 个 字符 构成 , 也 就 是 说 , 忽略 标 
点 符号 和 大 小 写 。 通过 收集 一 些 文本 样本 , 根据 这 些 文本 中 的 字符 的 经 验 分 布 建立 英文 模型 。 在 
英文 中 , 字母 出 现 的 频率 远 不 是 均匀 的 。 字母 下 出现 的 频率 最 高 达 13%, 而 频率 最 低 的 字母 Q 
A Z 大 约 为 0.1%。 FRE 出 现 频率 之 高 以 至 于 几乎 找 不 到 几 个 任意 长 的 句子 当中 没有 该 字母 
(但 有 一 个 例外 , 那 就 是 小 说 家 Emest Vincent Wright (Lightyear 出 版 社 , Boston, 1997; 1939 年 首 
KER) , 在 其 共计 267 页 的 小 说 《Gadsby》 中 刻意 回避 使 用 字母 EE) 。 

双 字 母 也 一 样 , 远 不 是 均匀 分 布 。 例 如 , 字母 Q 后 面 总 是 跟着 字母 U, 但 频率 最 高 的 双 字 母 
不 是 QU 而 是 TH, 通常 出 现 的 概率 为 3.7% 。 可 以 利用 这 些 双 字母 出 现 的 频率 来 估计 一 个 字母 
后 面 跟随 另 一 个 字母 的 概率 。 如 此 还 可 以 估计 更 高 阶 的 条 件 概率 并 建立 更 复杂 的 模型 。 仅 如 此 下 

168| 去 , 样本 很 快 就 会 告 融 。 例如 , 建立 三 阶 的 马尔 可 夫 下 近 , 必须 估计 条 件 概 率 p(x;| z;-1,2;-2, 
zH, 那么 要 建立 有 274=531 441 项 的 巨大 表格 , 这 样 , 要 想得到 这 些 概率 的 精确 估计 ， 必 

须 处 理 数 以 百 万 计 字 母 数 的 样本 文本 。 
条 件 概率 的 估计 可 以 用 来 生成 服从 这 些 分 布 的 字母 的 一 个 随机 样本 (利用 随机 数 生成 方法 )。 
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有 另外 一 种 较 简单 的 办 法 来 拟 合 随机 性 , 用 一 段 文字 样本 (比方 说 , 一 本 书 ) 为 道具 。 例 如 , 若 构造 
二 阶 模型 , 那么 随机 打开 书本 , 选 定 该 页 上 的 一 个 字母 , 将 其 作为 第 一 个 字母 。 再 随机 地 翻 开 书 
A, 随机 地 从 某 处 开始 往 下 读 , 直到 出 现 第 一 个 字母 为 止 , 将 紧 随 该 字母 的 那个 字母 选取 为 第 二 个 
字母 。 再 翻 到 另 一 页 , 重复 前 面 的 过 程 , 搜索 第 二 个 字母 ， 当 我 们 找到 了 第 二 个 字母 之 后 , 取 其 后 面 
的 那个 作为 第 三 个 字母 。 如 此 下 去 , 我 们 可 以 生成 一 个 文本 , 它 就 是 英语 文本 的 二 阶 统计 量 的 拟 合 。 

从 香农 的 原始 文章 [472] 中 , 我 们 抽出 下 列 关于 英文 的 马尔 可 夫 逼 近 的 几 个 例子 ， 

1. 0 Bridie (字符 串 是 独立 的 且 等 可 能 的 ): 

XFOML RXKHRJFFJUJZLPWCFWKCYJ 

FFJEYVKCQSGXYD QPAAMKBZAACIBZLHJQD 

2. 1 阶 逼 近 ( 字 符 串 是 独立 的 , 字母 的 频率 与 英文 文本 吻合 ) ; 

OCRO HLI RGWR NMIELWIS EU LL NBNESEBYA TH EEI 

ALHENHTTPA OOBTTVA NAH BRL 

3. 2 阶 通 近 ( 字 母 对 出 现 的 频率 与 英文 文本 陶 合 ): 

ON IE ANTSOUTINYS ARE T INCTORE ST BE S DEAMY 

ACHIN D ILONASIVE TUCOOWE AT TEASONARE FUSO 

TIZIN ANDY TOBE SEACE CTISBE 

4. 3 阶 适 近 (三 字母 出 现 的 频率 与 英文 文本 吻合 ) 

IN NO IST LAT WHEY CRATICT FRUURE BERS GROCID 

PONDENOME OF DEMONSTURES OF THE REPTAGIN IS 

REGOACTIONA OF CRE 

5. 4 阶 逼 近 ( 四 字母 出 现 的 频率 与 英文 文本 吻合 , 且 第 四 个 字母 依赖 于 前 面 三 个 。 下面 的 句 
FHA Lucky 的 书 《 硅 谷 梦 江 366]: 

THE GENERATED JOB PROVIDUAL BETTER TRAND THE 

DISPLAYED CODE, ABOVERY UPONDULTS WELL THE 

CODERST IN THESTICAL IT DO HOCK BOTHE MERG. 

(INSTATES CONS ERATION. NEVER ANY OF PUBLE AND TO 

THEORY. EVENTIAL CALLEGAND TO ELAST BENERATED IN 

WITH PIES AS IS WITH THE) 

6. 1 阶 单词 模型 ( 词汇 是 独立 选择 的 , 但 频率 与 英文 文本 吻合 ) : 

REPRESENTING AND SPEEDILY IS AN GOOD APT OR COME 

CAN DIFFERENT NATURAL HERE HE THE A IN CAME THE TO 

OF TO EXPERT GRAY COME TO FURNISHES THE LINE 

MESSAGE HAD BE THESE 

7. 2 阶 单词 模型 (词汇 的 转移 概率 与 英文 文本 吻合 ): 

THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH 

WRITER THAT THE CHARACTER OF THIS POINT IS 

THEREFORE ANOTHER METHOD FOR THE LETTERS THAT THE 

TIME OF WHO EVER TOLD THE PROBLEM FOR AN 

UNEXPECTED 

由 此 可 见 , 随 着 模型 的 复杂 度 上 升 , 逼近 就 越 来 越 像 英文 了 。 BI, MR Pa Ka 
组 简直 就 是 真实 的 英文 句子 。 这 表明 ,如 果 使 用 更 复杂 的 模型 , 那么 我 们 还 可 以 得 到 更 好 的 逼近 。 


© 
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这 些 副 近 通 常用 来 估计 英文 的 炉 。 例 如, 使 用 0 阶 模型 时 , WA log27= 4.76 比特 /字母 。 随 着 模 
型 复杂 度 的 增加 , 可 以 捕捉 到 英文 的 更 多 结构 信息 且 使 得 下 一 个 字母 的 条 件 不 肯定 度 变 小 。 使 用 
1 阶 模型 可 以 得 到 每 个 字母 的 炳 的 估计 为 4.03 比特 , 而 4 阶 模型 所 得 的 箭 的 估计 则 为 2.8 比特 / 
字母 。 即 使 这 样 , 4 阶 模型 也 不 能 够 捕捉 到 英文 的 所 有 结构 。 在 6.6 节 中 继续 讨论 英文 的 箭 的 估 
计 的 其 他 方法 。 

英文 的 分 布 对 于 加 密 的 英文 文本 的 译 码 十 分 有 用 。 例 如 , 在 简单 的 替代 加 密 ( 即 任何 一 个 字 
母 都 用 另外 一 个 字母 蔡 换 ) 的 秘 文中 , 可 以 通过 搜索 频率 最 高 的 字母 来 确定 该 字母 蔡 换 了 下, 其 
他 类 似 。 在 一 段 英文 中 , 当 其 他 字母 解密 后 ,对 于 缺损 的 位 置 用 一 个 非 英文 字符 填补 。 例 如 ， 

TH_R__S_NLY_N_W_YT_F_LL_NTH_V_W_LS_NTH_SS_NT_NC_. 
香农 的 关于 信息 论 的 原创 工作 的 某 些 灵感 来 自 于 第 二 次 世界 大 战 期 间 他 在 密码 学 的 工作 。 密码 
学 的 数学 理论 以 及 密码 学 与 语言 的 粹 之 间 的 关系 也 在 香农 的 文章 [481] 中 作 了 详细 论述 。 

语言 随机 模型 在 某 些 语音 识别 系统 中 也 起 到 了 关键 作用 。 经 常 使 用 的 模型 是 三 字符 模型 (也 
就 是 2 阶 马 尔 可 夫 单 词 模型 ), 它 是 估计 在 已 知 前 面 两 个 单词 的 条 件 下 来 估计 出 下 一 个 单词 出 现 
的 概率 。 从 语音 信号 中 获得 的 信息 与 模型 结合 可 以 产生 一 个 最 酷似 于 在 被 观测 的 语音 中 的 词汇 。 
虽然 我 们 还 不 能 清楚 地 看 出 随机 模型 是 否 有 能 力 将 支配 自然 语言 (如 英语 ) 的 复杂 语法 规则 进行 
整合 , 但 它们 在 语音 识别 中 吻合 的 程度 已 经 好 得 令 人 吃惊 。 

我 们 可 以 将 这 种 技巧 使 用 在 其 他 信 源 ， 比 如, 语音 信号 和 图 像 信号 等 ,估计 它们 的 焙 率 。 关 
于 这 些 内 容 的 风趣 的 介绍 可 在 Lucky [366] 中 找到 。 


6.5 数据 压缩 与 博弈 


本 节 证 明 一 个 优秀 的 马 民 也 是 一 个 优秀 的 数据 压缩 器 。 借 此 说 明博 弈 与 数据 压缩 的 直接 联 
A. 其实 , 马 民 愿意 将 大 笔 资金 下 注 的 任何 一 个 序列 必定 是 可 以 被 大 幅 压 缩 的 序列 。 将 马 民 视 为 
数据 压缩 器 的 想法 基于 这 样 的 事实 ; 马 民 的 每 个 下 注 策略 可 以 认为 是 对 数据 的 概率 分 布 给 出 的 
估计 。 一 个 优秀 的 马 民 必 然 得 到 该 概率 分 布 的 优秀 估计 。 我 们 可 以 利用 对 概率 分 布 的 这 种 估计 进 
行 算术 编码 (13.3 节 )。 这 是 下 述 的 方案 的 基本 思想 。 

假设 马 民 有 一 个 在 机 械 性 能 上 完全 相同 的 虚拟 双胞胎 , 其 专门 管 数 据 解 压缩 。 该 挛 生 兄弟 将 
与 现实 中 的 马 民 兄弟 有 同样 的 下 注 策略 (因而 投资 相同 的 钱 )。 于 是 在 所 有 可 能 的 结果 构成 的 序 
列 集合 中 , 对 于 一 个 给 定 的 序列 , 按照 字典 排序 法 ， 有 一 些 序列 小 于 该 给 定 的 序列 , 马 民 从 所 有 
这 些 序列 上 获得 的 累计 资金 将 用 作 该 给 定 序 列 的 压缩 数据 。 解 码 器 将 利用 虚拟 的 马 民 对 所 有 可 
能 的 策略 进行 模拟 下 注 ， 从 中 搜索 出 这 样 一 个 序列 , 从 所 有 上 比 它 小 的 序列 获得 的 累计 资金 正好 就 
等 于 该 压缩 数据 。 将 此 序列 作为 压缩 数据 的 解压 序列 。 

令 XXa X, 为 一 个 待 压缩 的 随机 变量 序列 。 不 失 一 般 性 , 假设 这 些 随 机 变量 是 二 值 的 。 
FTE, 对 一 个 序列 的 博弈 可 以 定义 为 如 下 的 一 系列 分 步 下 注 策略 

bl xpi | £13223" ,Th) 之 0， 2 Cm {zis x2,"" sty) = 1 (6-40) 


其 中 b(arp+1l 21,725" ws ty) Se SEF I SL Liv E05 te 之 下 , E k AIRY PEER 
Kas, 的 资金 比例 。 假设 均匀 的 机 会 收益 是 2 况 1, 那么 , 博弈 序列 所 得 的 相对 收益 就 是 最 
后 一 步 所 得 的 相对 收益 S, 按 如 下 公式 计算 


Sn =2" |] ble | List, Lp-1) (6-41) 
k=1 
=2"b( 215225" s En) . (6-42) 
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其 中 
b( 24,229" Zn) = TL (x | Zp_1 1) (6-43) 


所 以 , 顺序 的 下 注 可 以 看 成 是 对 所 有 2” 种 可 能 序列 的 概率 分 布 
b( 24,2257, )220， 5 blis T2, £,) = 1 


进行 估计 。 

这 个 博弈 不 仅 引 出 了 对 文本 序列 的 真实 概率 的 估计 (p(xzi,zx2，,… ,x4) = S,/2”), 还 带 出 了 文 
ERCA = -Llogi ) 的 估计 ， 据 此 刻画 该 序列 。 接 下 来 希望 证 明 相 对 收益 S, 越 高 , 对 应 的 数据 
压缩 比 越 高 。 特别 是 , 讨论 当 问 题 涉 及 相对 收益 S, 时 , 那么 对 于 任何 自然 形成 的 相关 的 确定 性 
数据 压缩 方案 中 能 够 节约 logs, 比特 。 我们 还 将 进一步 断言 ， 如果 该 博弈 是 对 数 最 优 的 , 那么 ， 
数据 压缩 比 将 达到 香农 临界 值 Ho 

考虑 如 下 数据 压缩 算法 , 它 将 文本 序列 x = rrr x, € 10,1)" 映射 为 编码 序列 , cie Cas 
cE 10,1}. 压缩 器 与 解压 器 都 知道 该 n。 假定 这 2” 个 文本 序列 按照 字典 排序 。 比 如 , 0100101< 
0101101。 编码 器 观测 序列 2" = (zi,z2,… ,x ) 之 后 ,可 以 计算 每 个 满足 z (2) 委 z(2) 的 序列 
x (n) 所 得 的 相对 收益 S, (x’(n)), 并 计算 F(xz(n))= > 2°"S, (x (n)) BR, 


x (n)Sz(n) 
F(z(n))€ [0,1]. & k=[n—logS,(2(n)) 1, 将 FCz(2)) 表 示 为 精确 到 第 & 位 的 二 进 制 小 数 : 
LF(x(n))J=.c102*** cro 序列 c(k)=(c1,c2,… ,cx) 被 传输 给 解码 器 。 

挛 生 解 码 器 可 以 计算 出 对 应 的 2” 个 序列 中 的 任何 一 个 x “(nn) 所 得 到 的 相对 收益 S(x'(n))。 
于 是 ,可 以 知道 处 于 任何 序列 z(n) 的 所 有 序列 zx’(n) 所 对 应 的 2-"S(x’(n)) 的 累计 值 。 它 不 大 
其 烦 地 计算 这 些 和 , 直到 首次 超过 .c(&) 为 止 。 当 首次 搜索 出 这 样 的 x(n ) 使 得 上 述 累 计 值 落 在 
KEJL. ciecze, .cicz…ce+(12)]， 则 停止 搜索 。 这 样 的 xz(n ) 是 惟一 确定 的 。S(x(n))/2" 的 
大 小 保证 了 对 x(n) 的 编码 是 精确 的 。 

FE, 该 虚拟 挛 生 兄弟 惟一 地 恢复 出 了 zx(n)。 所 需要 的 长 度 为 k=[n 一 logS(z(n)) | 比特 。 
节省 了 nn 一 k=|LlogS(x(n))J 比 特 。 若 按 比例 下 注 , 那么 S(zx(n))=2"p(z(n))。 从 而 , KER 
数学 期 望 为 Ek= > p(x(n))f —logp(x(n)) IRH(X1, X2 Xa) + 10 

我 们 将 会 看 到 , 当下 注 策略 已 定 且 编码 器 和 解码 器 都 知道 , 那么 编码 xz , x，,… ,zx, 所 需要 的 
长 度 小 于 -logS,+1 比特 。 而 且 , 假如 p(z) 已 知 , 并 且 按 比例 下 注 , 那么 长 度 的 数学 期 望 值 
为 E(n — logS, )<H(X1,°, X,) +1. 于是, 博弈 的 结果 精确 地 对 应 了 通过 一 对 挛 生 兄弟 来 扮演 
的 编码 器 -解码 器 来 实现 的 数据 压缩 方案 。 

利用 一 个 马 民 来 实现 数据 压缩 方案 的 思想 与 13.3 节 中 算术 编码 的 思路 是 相似 的 , 使 用 的 分 
布 5(ziyz，…,z) 不 是 真实 分 布 。 上 述 分 析 过 程 导出 了 博弈 与 数据 压缩 的 对 偶 关系 , 涉及 真实 
分 布 的 估计 。 越 好 的 估计 , 马 民 的 相对 收益 增长 率 越 高 , 从 而 数据 压缩 的 方案 就 越 好 。 


6.6 XMF 


本 节 我 们 使 用 财 民 估计 概率 分 布 的 方法 来 估计 英文 的 炳 率 。 我 们 暂时 忽略 英语 中 的 标点 符 

号 和 大 小 写 , 将 英语 文本 视 为 由 27 个 字符 组 成 (26 个 字母 和 一 个 空格 )。 由 此 ,给 出 如 下 两 种 信 
HSE ATT | 

1. 香农 生字 游戏 。 在 此 游戏 中 ,给 出 一 篇 英文 文章 样本 ,要 求 猜 出 下 一 个 字母 是 什么 。 一 个 

优秀 的 嘉宾 应 该 首先 估计 下 一 个 可 能 出 现 的 字母 的 概率 ,然后 依照 概率 大 小 从 大 到 小 依 
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次 猜测 ， 先 猜 概率 最 大 的 ,再 猜 概率 次 大 的 , 依次 下 去 。 实 验 者 记录 下 猜 中 下 一 个 字母 所 
需要 的 次 数 。 继续 此 游戏 , 当 获 得 相当 大 数量 的 实验 记录 之 后 , 就 可 以 计算 出 该 对 下 一 个 
字母 所 需要 的 猜测 次 数 的 经 验 频率 分 布 。 许 多 字母 仅 需 要 一 次 就 可 以 猜 中 , 但 单词 的 第 
一 个 字母 或 者 句子 的 开头 的 字母 往往 需要 反复 很 多 次 才能 猜 中 。 

现在 假定 将 嘉宾 模拟 成 一 台 计 算 机 , 根据 指定 的 文章 确定 猜测 选择 。 此 时 , 利用 该 机 
器 , 以 及 猜测 次 数 的 数据 列 , 可 以 重 构 一 个 英语 文本 。 只 要 将 该 计算 机 启动 ， 并 假设 在 任 
何 位 置 上 所 需 的 猜测 次 数 均 为 , 选取 机 子 的 第 & 次 猜测 的 字母 为 下 一 个 出 现 的 字母 即 
可 。 于是, 猜测 次 数 的 信息 量 正好 是 英文 文本 的 信息 量 , 猜测 序列 的 炉 也 正好 是 英文 文本 
的 。 只 要 我 们 假设 所 选取 的 样本 是 独立 的 ， 就 可 以 界定 猜测 次 数 序列 的 精 。 从 而 ， 该 实 
验 数 中 直方 图 的 焙 就 为 猜测 序列 的 箭 的 上 界 。 该 实验 是 香农 于 1950 年 给 出 的 (Shannon 
[482])。 他 获得 的 英文 的 箭 为 1.3 比特 /字符 。 


. 博弈 估计 。 在 此 游戏 中 , 让 嘉宾 在 一 篇 英语 范文 中 猜测 下 一 个 字母 出 现 的 字母 。 这 与 前 面 


的 不 同 之 处 在 于 , 允许 有 一 个 比 猜测 更 为 精细 的 评判 等 级 。 与 赛马 的 情形 一 样 ， 最 优 的 博 
弈 策略 是 与 下 一 个 字母 出 现 的 条 件 概率 成 比例 。 猜 对 了 字母 的 机 会 收益 是 : 27 竞 1。 

由 于 一 连 串 的 分 步 下 注 等 价 于 下 注 一 个 序列 的 所 有 项 , 因此 , 在 ”个 字母 之 后 可 得 
到 所 得 的 收益 总 额 为 


S, = (27) (X1; X25 Xn) (6-44) 
于 是 , 经 过 nn 轮 下 注 , 相对 收益 的 对 数 期 望 满足 
E + tog, = log 27+ LE log 6( X15 X25, Xn) (6-45) 
= log 27+ + Dp(z")logb(z") (6-46) 
a ees, 
= log 27 = NOP og Cz) 
++ Dp(z")logp(z") (paria 


= log 27-a") | b(a") -H(X Kay Xn) (6-48) 
<log 27- H(X, X27 Xn) (6-49) 
<log 27- X(X) (6-50) 
此 处 HOX EREXRR. 于 是 log 27- E logs,» 是 英文 的 炳 率 的 上 界 。 如 果 英文 是 饥 
历 的 且 嘉 宾 使 用 6(zr) = pla"), 那么 其 上 界 估计 A= log 27- -F logs, 依 概率 1 MAT 


H(X). 文献 [13 菇 中 给 出 一 个 试验 : 利用 Dumas Malone 的 小 说 《Jefferson the Virginian》 为 
范文 (香农 使 用 的 信 源 Little, Brown, Boston, 1948), 由 12 个 参赛 者 针对 75 个 样本 字母 进 
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习题 


6.1 赛马 。 三 匹 马 参赛 。 马 民 购 买 三 匹 马 中 每 只 马 票 , 机 会 收益 倍率 均 为 3 竞 1。 如 果 三 匹 马 在 
该 赛事 中 等 可 能 获胜 , 那么 上 述 的 机 会 收益 是 公平 的 。 现 已 知 真实 的 获胜 概率 为 
See eer ere (6-54) 
A b= (b1,b2,63) 0,220, Db; =1 为 购买 每 只 马 票 的 资金 比例 。 于 是 , 相对 收益 的 对 数 的 期 
望 为 


: W(b) = Y pilog 3b; (6-55) 
(a) 求 使 得 W(b) 达 到 最 大 值 时 的 b* 和 相应 应 的 最 大 值 W 于 是 , 重复 下 注 , 获得 的 收益 


将 是 依 概率 1 按照 2” 方式 增加 到 无 穷 。 

(b) 证 明 : 如 果 将 全 部 资金 只 买 马 1 的 马 票 , 那么 即使 买 最 有 可 能 获胜 的 马 票 ,最 终 也 必然 
依 概率 1 破产 。 

6.2” 非 公平 机 会 收益 的 赛马 。 如 果 机 会 收益 是 不 平等 的 (比如 赛 道 引起 的 ), 那么 马 民有 理由 不 

gt 假设 5(0) 是 他 保留 的 现金 比例 , 而 5(1) ,5(2),…,b(m) 是 他 花 在 马匹 1， 
-m 马 票 上 的 资金 比例 ，o(1),o(2),…,o(m ) 是 机 会 收益 ， 且 每 匹 马 获胜 的 概率 分 别 

4 p02)" tm 于 是 , 最 后 的 相对 收益 为 SCz)=0(0) + b(z)o(x), 其 概率 分 

别 是 p(x),z=1,2,: À 

(a) REELS 之 下 的 使 ElogS RKK b*o 

(b) 在 约束 条 件 忆 1/0(i) >1 之 下 讨论 b* (此 情形 下 ， 没有 任何 简单 的 封闭 形式 的 解 , 但 利 
HER- 塔 克 条 件 可 以 导出 一 一 个 “注水 ” 解 。) 


6.3 扑克 牌 。 一 副 普通 的 扑克 牌 中 ， 26 张 为 红色 , 26 张 为 黑色 。 将 扑克 牌 充分 洗 牌 混合 , 每 次 


无 放 回 地 抽出 一 张 。 用 X; 表示 抽出 第 i 张 牌 的 颜色 。 
(a) 试 求 H(X1)。 
(b) RR H(X,)。 
(©) HH(Xi|X1,Xi3,…，Xi-1) 是 增加 还 是 减少 ? 
(d) RR H(X,,X2,,Xs2)0 
6.4 博弈 。 假设 一 个 赌 民 持续 地 参与 习题 6.3 中 的 扑克 牌 游 戏 , 并 且 仍 然 按 照 竞 1 的 公平 机 
会 收益 。 于 是 ,第 ”次 的 相对 收益 S, 为 S, =2"O (21,225 ay) 其 中 DCziza Ey EP 
注 在 zl,z，…,z 上 的 资金 占 总 相对 收益 的 比例 。 求 maxs() 开 logSso | 


a 


76 
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6.5 


6.6 


6.7 


6.8 


6.9 





挫败 公开 的 机 会 收益 。 考虑 三 匹 赛马 ,它们 获胜 的 概率 分 布 为 : 
(ruoesd=(304-4) 
且 公平 机 会 收益 倍率 服从 如 下 (和 失败) 分布 
0 
于 是 ,机 会 收益 倍率 向 量 为 
(01,0203) = (4,4,2) 


(a) RHR WELD? 

(b) 找 出 一 系列 下 注 策略 (51 ,bb3) ,使 得 反复 购买 马 票 之 后 的 累积 相对 收益 增长 到 无 穷 。 
赛马 。 三 匹 马赛 马 获胜 的 概率 为 p=( 思 1, 2,p3), 且 机 会 收益 向 量 为 o= (1,1,1)。 马 民选 
择 的 下 注 策略 为 b= (51,62,53) ,5; 宇 0, D6,=1, 其 中 b 是 马 民 下 注 在 第 i 匹 马 的 资金 的 比 
例 。 机 会 收益 信 率 向 量 相当 粳 糠 。 马 民 虽然 从 获胜 的 马 票 上 得 到 收益 但 也 从 失败 的 马 票 上 
丢掉 其 他 资金 。 于 是 , 如 果 每 次 下 注 是 独立 的 , 记 第 ”次 时 的 相对 收益 为 S,， 那么 它 是 按 
指数 下 降 到 0 的 。 

(a) 求 出 该 指数 。 

(b) 找 出 最 优 下 注 策略 b( 即 ,使 得 指数 最 大 化 的 策略 b” ) 

(c) 假如 b 就 是 (b) 中 选 出 的 策略 , 什么 样 的 分 布 p 将 会 使 S, 以 最 快 的 速率 输 光 ? 

赛马 。 假 定 一 场 赛马 中 有 四 匹 赛马 ,每 匹 马 获胜 的 赔付 率 为 BE 1 。 令 马 获胜 的 概率 分 别 为 
士 ,十 ,二 ,去 |。 如 果 你 以 100 美元 开始 你 对 每 匹 马 的 最 优 博弈 来 使 你 的 长 期 增长 率 最 大 
化 , 那么 ,在 每 匹 赛马 上 的 最 优 比例 是 多 少 ? 如 果 按照 这 种 策略 下 注 , 20 场 后 你 将 大 约 获 


` 得 多 少 钱 ? 


乐 透 彩 (Lotto)。 下 面 的 分 析 是 对 乐 透 彩 游戏 的 各 种 形式 的 粗略 描述 。 假 设 游 戏 参 与 者 必须 
交纳 一 美元 且 每 一 局 只 允许 在 1 一 8 中 挑选 一 个 号 。 每 天 收盘 时 , 乐 透 彩 代理 人 也 从 1 到 8 
中 随机 抽取 个 号 作为 中 奖 号 码 。 于 是 , 所 有 头寸 ( 即 当天 收取 的 所 有 钱 ) 将 分 给 所 有 与 该 
号 相同 的 游戏 参与 者 。 比 如 , 如 果 今 天 有 100 人 参与 该 游戏 , 其 中 10 人 选 了 25, FBS 
天 收盘 时 抽出 的 号 也 是 2 号 , 那么 , 这 100 美元 将 在 这 10 人 中 均 分 ( 即 , 持 有 2 号 的 人 将 获 
得 每 人 10 美元 , 其 他 90 人 将 什么 也 没有 )。 

一 般 人 群 不 可 能 均匀 地 选号 ,比如 号 码 3 与 7 是 假定 的 好 运气 号 码 , 远 比 号 码 4 或 8 
抢手 。 用 ( 户 , 户 …, 户 ) 表 示 参 与 者 选择 号 码 1, 2,…,8 的 概率 。 假 设 每 天 有 n TABS, 
E n 相当 大 以 至 于 个 别人 的 选择 不 会 影响 人 们 博弈 某 个 号 码 的 概率 。 | 
(a) 针对 各 种 各 样 可 能 的 票 , 需要 采取 什么 最 优 策略 分 配 你 的 资金 才能 使 得 你 的 长 期 增长 

率 最 大 化 (忽略 你 不 可 以 买 分 数 张 票 的 要 求 )。 

(b) 在 这 种 游戏 中 , 你 能 够 达到 的 最 优 增长 率 是 多 少 ? 


O 如 果 概率 分 布 (有 ,所 ,…, fa) = (Soe ee 16164 716) AS AT 
用 1 美元 将 自己 变 成 百 万 富 贫 ? 

赛马 。 假如 某 人 迷恋 于 赛马 的 双 售 率 最 大 化 。 设 p1 Pass Pn H m 匹 赛马 获胜 的 概率 , 什 

么 时 候 (ol,o,… + Om ) 的 双 倍率 会 高 于 (oo'2，…，,om ) 的 双 倍率 ? 





6.10 依据 估计 的 概率 分 布 的 赛马 。 
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6.11 


6.12 


6.13 





(a) 三 马 比 赛 。 三 匹 马 获胜 概率 分 别 为 (十, 十 ,十 ), 机 会 收益 倍率 分 别 为 4 兑 1, 3 581 A 
1 1 


3 io 假如 你 相信 概率 分 布 是 ( 士 , 士 ,地 )，, 而 且 你 想 将 双 倍率 最 大 化 ,那么 ,你 能 得 
到 的 双 倍 率 W 会 是 多 大 ? 由 于 你 对 于 概率 分 布 的 糟糕 估计 ， 你 的 双 倍率 降低 多 少 ? 
( 即 AW= W*-W)? 

(b) 现在 假设 在 m 匹 马 的 赛马 中 ,获胜 概率 为 p= (六 ， 思 2，… 加 )， 机 会 收益 倍率 为 o= 
(ol,o,…,ou)。 假如 你 相信 的 真实 概率 分 布 是 q= (gil,g2，… In)» 尝试 将 双 倍率 W 
最 大 化 ,那么 ,W* -W 是 多 少 ? 

两 红包 问题 。 假 设 一 个 红包 里 装 有 b XT, 另 一个 装 有 2b 美元 。 当 然 5 的 数量 是 未 知 的 ， 

且 选 择 哪个 红包 是 随机 的 。 设 X 为 这 个 红包 中 观测 到 的 钱 数 , 而 Y 为 另 一 个 红包 中 的 钱 


数 。 以 概率 p(z) 采 用 开关 选择 策略 ,其 中 p(x) = 一 二。 BZ 为 参与 者 收 到 的 红包 。 
于 是 ， 


(6,2b) BEAT 
(X,Y)= 


1 (6-56) 

(26,6) BEA 

_ |X 概率 为 1-p(z) 
z=% 概率 为 p(z) (6-57) 


(a) 证 明 E(X) = ECY) =%, 
(b) 证 明 ECY/X)= Š, FE A t A A E A E RO He EOR A 


互 ， 似乎 总 是 要 选择 的 (这 是 开关 选择 矛盾 的 原始 意义 )。 但 是 ,观察 到 己 (Y) 么 


E(X)E(Y/X). B&R E(Y/X)>1, 但 它 不 足以 推出 E(Y)>E(X)。 

(c) 令 为 钱 最 多 的 红包 的 下 标 ,J 是 由 该 算法 选 出 来 的 红包 的 下 标 。 证 明 对 于 任何 b, 均 
# I,J )>0. 于是， 第 一 个 红包 装 有 的 钱 数 总 是 包含 了 到 底 选 员 个 红包 的 部 分 
信息 。 

(d) 证 明 E(Z)>E(X)。 也 就 是 说 , 你 可 以 做 得 比 始终 播 着 或 者 不 停 换 股 都 好 。 BEL, 
这 对 于 任何 单调 递减 的 选择 函数 p(x) 都 是 对 的 。 按照 p(z) 随 机 地 选择 , 你 会 有 更 大 
的 可 能 性 高 买 低 卖 。 

博弈 。 求 下 列 情形 对 应 的 赛马 获胜 概率 p1,p2，… Pmt 

(a) 对 于 给 定 的 机 会 收益 率 O1, Os,…, Ons 使 双 倍率 W* 最 大 化 。 

(b) 对 于 给 定 的 机 会 收益 率 O, Os,…, Ons EREE W* 最 小 化 。 

大 痉 赌 。 考 周一 场 只 有 m =2 匹 赛马 的 比赛 ， 

X=1,2 
1 1 


P-3°2 
机 会 收益 倍率 分 别 为 10 A 30. FERE = b,1— bo 此 时 机 会 收益 倍率 是 超 公 平 的 。 
(a) 存在 这 样 一 种 下 注 策略 b, 不 论 哪 匹 马 获胜 均 可 得 到 相同 的 恒利 。 这 种 赌 法 就 是 所 谓 
的 大 弃 赌 。 求 出 这 样 的 大 弃 赌 策略 b 以 及 相应 的 收益 系数 S(X)。 | 


1 


7 


9 
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6.15 


6.16 


(b) 在 最 优选 择 b 之 下 的 最 大 财富 增长 率 是 多 少 ? 将 其 与 大 弃 赌 的 增长 率 比 较 。 
公平 赛马 的 炉 。 令 六 一 p(x) ,z=1,2,…,m 记 一 场 赛马 的 获胜 者 。 假设 机 会 收益 率 olx) 


关于 概率 P(x) 公平 ( 即 ,o(z)= 505) « 令 b(z) 为 下 注 在 第 x 匹 马 的 资金 量 , M 5(z) 之 


0, > 5(z)=1。 那么 ,关于 概率 p(x) 的 收益 增长 因子 为 SCz)=5(z)o(z)。 


(a) 求 出 期 望 收益 E S(X)。 
(b) 求 收益 的 最 优 增长 率 W. 
(c) 设 
1, X=1 或 2 

Y= lo, 其 他 
如 果 下 注 前 得 到 该 边 信 息 , 那么 增长 率 W "的 增 量 是 多 少 ? 
(d) R I(X;Y). 
赌 给 的 另类 赛马 。 考 虑 获胜 的 概率 为 p1, prs Pm Hm 匹 赛马 参赛 的 一 场 赛马 。 此 时 ， 


马 民 希 望 指定 的 某 匹 马 输 掉 而 不 是 获胜 。 他 将 资金 分 配 为 (51,5,，,… On) Sa- = 1 下 注 
在 对 应 的 马匹 上 。 如 果 第 i 匹 马 获胜 , 那么 他 将 失去 赌资 b 但 保住 了 其 他 的 赔 资 。 于 是 依 


概率 p 保留 了 赌资 S = 2a bj (无 机 会 收益 )。 现 在 希望 在 约束 条 件 2 = 1 下 得 出 
> piln(1 一 6;) 的 最 大 值 。 


(a) 求 最 优 投资 策略 6 "的 增长 率 。 不 必 限 制 赌资 必须 为 正 , 但 必须 限制 Sb, = 1( 这 种 策 


略 的 效果 等 价 于 允许 卖 空 和 对 冲 )。 

(b) 最 优 增 长 率 是 多 少 ? 

圣彼得堡 (St. Petersburg) 悖 论 。 很 久 以 前 在 圣彼得堡 ， 下 述 的 博弈 提案 引起 极 大 的 骚动 。 

28 e 单位 的 人 场 费 , 赌 民 有 概率 为 2-* 的 机 会 获得 2* 单位 的 收益 ,k=1,2,3… 。 

(a) 证 明 ; 该 游戏 的 期 望 收 益 为 无 穷 大 。 因此 , 为 了 保证 该 游戏 可 以 持续 下 去 ,认为 只 有 
c 二 co 才 是 “公平 " 价 。 绝 大 多 数 人 认为 该 答案 是 荒废 的 。 

(b) 假设 赌 民 有 能力 购 买 该 游戏 的 一 个 份额 。 比 如 , 假如 他 只 购买 c/2 单位 , 那么 他 只 能 
以 概率 为 Pi(X=2*)=2-*(k=1,2,3…) 收 到 XX 人 2 数量 的 回报 。 假设 X1,X,,… 是 服 
从 该 概率 分 布 的 独立 同 分 布 序列 ,而 赌 民 每 次 将 其 所 有 资金 全 部 下 注 。 于 是 , 第 nn 次 
时 他 的 收益 累计 为 S, 满足 如 下 公式 

S, = -Ù 7 一 (6-58) 

证 明 : 在 c<c* 或 者 < c>c* 条 件 下 ， 该 极限 分 别 依 概率 1 BET oo Be 0. 确定 “公平 ” 
人 场 费 c* o 

更 切合 实际 的 是 , 赌 民 应 该 保留 一 定 比例 现金 5=1- 25， 只 将 其 余 比 例 5 的 现金 用 来 参与 

圣彼得堡 游戏 。 于 是 , 到 了 第 ”次 时 , 他 的 相对 收益 为 

s= (+=) | (6-59) 

A . 
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Wb,c)= > 2-Hog(1~ 6 + 22") (6-60) 
我 们 可 得 到 
S, =27 W0) (6-61) 
再 令 
W*(c)= max W(4,c) (6-62) 


于 此 , 有 如 下 关于 W* (c) 的 三 个 问题 。 
(c) 多 少 的 人 场 费 c 能 够 使 得 最 优化 的 值 6* 低 于 1? 
(d) 0“ 在 多 大 程度 上 依赖 于 c? 
(e) W*(c) 的 下 跌 在 多 大 程度 上 依赖 于 c? 
注意 到 对 于 所 有 c, 均 有 W*(c)>0, 于 是 可 以 说 : 任何 人 场 费 c 都 是 公平 的 。 

6.17 超 圣 彼得 堡 悖 论 。 最 后 , 我 们 介绍 超 圣 彼得 堡 悖 论 , 与 圣彼得堡 悖 论 相 比 , 它 只 是 在 对 应 
的 概率 分 布 部 分 改 为 Pr(X=2*)=2"*, k=1,2, 。 此 时 , 对 于 所 有 65>0 以 及 所 有 的 c, 
收益 的 对 数 的 期 望都 趋 近 于 无 穷 。 而且 对 于 任何 5.>0, 赌 民 的 收益 趋 近 于 无 穷 的 速度 都 
比 指数 速度 更 快 。 但 这 并 不 意味 着 下 注 比 例 b 是 优秀 的 。 为 了 看 清 这 一 点 , 可 以 看 看 其 他 


投资 组 合 所 对 应 的 增长 率 的 最 大 值 到 底 如 何 , 比如 , 取 b= (5,5). REE 


Eln a + ox 
2 + X/e 
达到 最 大 值 的 5 并且 解 释 该 答案 。 
历史 回顾 


研究 赛马 博弈 的 首创 性 工作 者 当 属 Kelly, 他 发 现 了 AW = 工 参 看 文献 [308])。 对 数 最 优 投 
资 组 合 可 以 追溯 到 伯 努 利和 Kelly [308] 、Latané [346], 及 Latané 和 Tuttle [347] 。 按 比例 下 注 策 
KARS Kelly 博弈 策略 不 加 区 别 。 通 过 习题 6.11 中 选择 红包 的 方法 来 提高 获胜 概率 的 方法 是 
基于 Cover [130] 的 工作 。 

香农 关于 英文 的 随机 模型 的 工作 可 在 他 的 原创 文章 [472] 中 找到 。 他 的 关于 估计 和 英文 炉 率 的 
猜 字 游戏 可 以 在 文章 [482] 中 找到 。Cover 和 King 在 文献 [131] PHR TREC HH ATE. 
关于 圣彼得堡 悖 论 的 分 析 可 在 Bell 和 Cover[391 中 找到 。 在 Feller [208] 中 还 可 以 找到 另 一 个 
分 析 。 


N 





第 7 章 信道 容量 


当 说 到 “A 与 B 通 信 ” 时 , 我 们 的 真实 意思 是 什么 ? 我 们 的 意思 是 A 的 物理 行为 使 B 产 生 一 
种 需要 的 物理 状态 。 信 息 的 传输 是 一 个 物理 过 程 , Alb, 必然 受到 无 法 控制 的 周边 噪声 以 及 信和 号 
处 理 本 身 缺 陷 的 影响 。 如 果 接 收 者 B 与 传输 者 A 就 所 传输 的 内 容 是 一 致 的 , 那么 说 这 次 通信 是 
成 功 的 。 

在 本 章 中 , 在 ”次 使 用 信道 下 , 将 计算 出 可 区 分 的 信号 的 最 大 数目 。 该 数 与 n 成 指数 增长 
KR, 这 个 指数 就 是 所 说 的 信道 容量 。 信 道 容量 (可 区 别 的 信号 数目 的 对 数值 ) 被 特征 化 为 最 大 
互信 息 , 是 信息 论 的 中 心 问题 , 也 是 信息 论 中 最 著名 的 成 就 。 

在 图 7-1 中 给 出 一 个 物理 发 送信 号 系统 的 数学 模拟 。 来 自 某 个 有 限 字母 表 的 信 源 字符 被 映 
射 成 一 系列 信道 字符 串 , 系统 就 得 到 信道 的 输出 序列 。 输 出 序列 虽然 是 随机 的 , 但 它 的 分 布 由 输 
入 序列 决定 。 我 们 试图 凭借 着 这 些 输出 序列 来 恢复 出 传输 的 消息 。 

每 个 可 能 的 输入 序列 将 导出 关于 输出 序列 的 概率 分 布 。 由 于 两 个 不 同 的 输入 序列 可 以 产生 
相同 的 输出 序列 , 于 是 根据 输出 序列 不 知道 输入 序列 到 底 是 哪个 。 在 下 面 的 几 节 中 , 我 们 将 证 明 
能 够 以 很 高 的 概率 从 输入 序列 中 挑选 出 一 个 “不 会 混淆 ”的 子 集 , 使 得 对 于 每 一 个 特定 的 输出 序 
Jj, 只 存在 惟一 的 一 个 输入 最 有 可 能 导致 该 输出 。 于 是 , 在 不 计较 可 以 忽略 的 误差 概率 的 情况 
F, 可 以 在 输出 端 重 构 输 入 序列 。 将 信 源 映射 到 适合 于 输入 信道 的 “足够 分 散 的 "输入 序列 集合 ， 
我 们 能 够 以 非常 低 的 误差 概率 传输 一 条 消息 , 并 且 在 信道 的 输出 端 重 构 出 这 个 信 源 消息 。 可 实 
现 的 最 大 的 码 率 称 作 该 信道 的 容量 。 





7-1 通信 系统 


定义 ”离散 信道 (discret channel) 是 由 输入 字母 表土, 输出 字母 表 》 和 概率 转移 矩阵 p(yl x) 
构成 的 系统 , 其 中 p(y|xz) 表 示 发 送 字 符 z 的 条 件 下 收 到 输出 字符 y 的 概率 。 如 果 输 出 的 概率 分 
布 仅 依赖 于 它 所 对 应 的 输入 ; 而 与 先前 信道 的 输入 或 者 输出 条 件 独立 , 就 称 这 个 信道 是 无 记忆 的 
(memoryless) o 

定义 ”离散 无 记忆 信道 的 “信息 ”信道 容量 (channel capacity) E XH 

C=maxI(X; Y) (7-1) 
这 里 的 最 大 值 取 自 所 有 可 能 的 输入 分 布 p(xz)。 

我 们 稍 后 将 给 出 信道 容量 的 一 个 可 操作 性 的 定义 , 也 就 是 将 信道 容量 定义 为 信道 的 最 高 码 
率 ( 单 位 为 比特 /信道 使 用 ), 在 此 码 率 下 , 信息 能 够 以 任意 小 的 误差 概率 被 传输 。 香 农 第 二 定理 
表明 , 信息 信道 容量 等 于 这 个 可 操作 的 信道 容量 。 于 是 , 在 大 多 数 情况 下 , 讨论 信道 容量 时 总 是 
略 去 信息 (information) 这 个 字眼 。 

在 数据 压缩 与 数据 传输 问题 之 间 存 在 对 偶 性 。 在 压缩 过 程 中 , 去 除数 据 中 所 有 的 元 余 以 使 
其 得 到 最 大 程度 的 压缩 ; 而 在 数据 传输 过 程 中 , 以 一 种 受 控 方 式 加 入 元 余 以 抵抗 信道 传输 中 可 能 
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发 生 的 错误 。 在 7.13 节 中 , 我 们 将 证 明 一 般 的 通信 系统 可 以 分 成 两 部 分 , 而 且 数 据 压缩 与 数据 
传输 问题 可 以 分 开 考虑 。 


7.1 信道 容量 的 几 个 例子 


7.1.1 ZREL Ta 

假定 有 如 图 7-2 所 示 的 信道 , 它 的 二 元 输入 在 输出 端 能 精确 地 重 现 。 

在 这 种 情况 下 , 任何 一 个 传输 的 比特 都 能 被 无 误差 地 接收 到 。 因 此 , 每 次 使 用 该 信道 ,都 
可 以 毫 无 误差 地 传输 一 个 比特 , 信道 容量 就 是 1 比特 。 当 然 , 也 可 以 计算 得 到 信息 容量 C= [184] 
maxI(X;¥)=1 比特 , 且 在 p(z)= (>.> ia 
7.1.2 ASM HARARE 

这 个 信道 对 于 两 个 输入 中 的 每 一 个 , 均 有 两 个 可 能 的 输出 ,如 图 7-3 所 示 。 这 个 信道 看 起 来 
有 噪声 , 其 实 不 然 。 即 使 信道 的 输出 是 输入 的 随机 结果 , 但 输入 也 可 以 根据 输出 确定 , 于 是 每 个 
传输 的 比特 都 可 以 准确 无 误 地 得 到 恢复 。 内 此 , 该 信道 的 容量 仍然 是 1 比特 /传输 。 也 可 以 计算 
出 该 信道 的 信息 容量 C=max1(X;Y) =1 比特 , 且 在 p(x) = (4,4 ) 时 达到 。 i8 
7.1.3 BRAT See 

在 此 情形 中 , 信道 输入 以 概率 172 在 输出 端 无 改变 地 被 接收 , 或 以 概率 12 转变 为 下 一 个 字母 
(如 图 7-4 所 未)。 若 输入 端 有 26 个 字符 , 并 以 间隔 的 方式 使 用 输入 字符 , 那么 在 每 次 传输 过 程 中 ， 
可 以 毫 无 误差 地 传输 其 中 的 13 个 字符 。 因 此 , 该 信道 的 容量 为 log13 比特 /传输 。 也 可 计算 得 到 
信道 的 容量 C= mal (X; Y) = max[ H(Y) - 
再 (了 Y|X)]=maxE(Y)-1=log26-1=logl3 比 
特 , 且 当 p(x) 为 整个 输入 字母 表 上 的 均匀 分 布 
时 达到 该 容量 。 


0 =O 


un 


moans > 





1 —» | 


图 7-2 ”无 噪声 二 元 信道 。C = 1 比特 





1/2 


1/2 


13 
— 

23 4 有 噪声 信道 输入 的 无 噪声 子 集 
图 7-3 无 重 释 输出 的 有 品 声 信道 。C=1 比特 图 7-4 曲 声 打字 机 信道 。C= log13 比特 186 
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7.1.4 二 元 对 称 信 道 
考虑 如 图 7-5 所 示 的 二 元 对 称 信道 (Binary Symmetric Channel，BSC) 。 这 个 二 元 信道 的 输入 
字符 以 概率 p 互补 。 这 是 一 个 有 误差 信道 的 最 简单 模 I-p 


0 0 
型 , 然而 , 它 反映 出 了 有 误差 信道 问题 的 复杂 度 的 普 
遍 特 点 。 r 
在 出 现 错误 时 , 0 作为 1 收 到 , 或 者 正好 相反 。 从 p 
接收 到 的 比特 中 我 们 并 不 能 看 出 哪里 发 生 了 错误 。 从 
某 种 意义 上 说 , 所 有 接收 到 的 比特 都 不 可 靠 。 稍 后 将 i 5 I 
证 明 , 我 们 仍然 可 以 使 用 这 样 的 通信 信道 以 非 0 的 传 
输 码 率 发 送信 息 , 并 且 误 差 概率 任意 小 。 图 7-5 一 元 对 称 信道 。C=1~ H(p) 比 特 
给 出 互信 息 的 一 个 界 
I(X;Y)=H(Y)- H(YIX) (7-2) 
=H(Y)- 2p(r)H(YIX=7) (7-3) 
=HCY)- 2p(x)H(p) (7-4) 
=H(Y)- H(p) (7-5) 
<1-H(p) (7-6) 


其 中 最 后 一 个 不 等 式 成 立 是 因为 Y 是 一 个 二 元 随机 变量 。 当 输入 分 布 是 均匀 分 布 时 等 号 成 立 。 
因此 , 参数 为 p 的 二 元 对 称 信道 的 信息 容量 是 
C=1-H(p) 比特 (7-7) 

7.1.5 二 元 擦 除 信道 

有 一 种 信道 类 似 于 二 元 对 称 信道 , 会 损失 一 些 比 特 (不 是 被 损坏 ), 这 种 信道 称 作 二 元 擦 除 信 
道 (binary erasure channel)。 在 二 元 擦 除 信道 中 ,比例 为 a HERR o l-a 0 
BH, 并 且 接 收 者 知道 是 哪些 比特 已 经 被 擦 除 掉 了 。 如 图 7-6 所 示 ， 
二 元 擦 除 信 道 有 两 个 输入 和 三 个 输出 。 

计算 二 元 擦 除 信道 的 容量 如 下 : 


C =maxI(X;Y) (7-8) ON, e 
=max(H(Y) — H(Y|X)) (7-9) 
= maxH(Y) - H(a) (7-10) 


初 看 , WE HCY) MRK BE log3, 但 无 论 选 择 什么 输入 分 布 
p(x), BAKA MA. WE 代表 事件 |Y= e}， 并 使 用 表达 式 1 


1-a 


H(Y)=H(Y,E)=H(E)+ H(Y|E) (7-11) ag 一 元 擦 除 信 道 

设 Pr(X=1)=x, RNA 

HCY)=H((1-x)(1-a),a,n(l-a))=H(a)+(1-a)H(x) (7-12) 
因此 

C = maxH ( Y)- H(a) (7-13) 
=max(1— a)H(x) + H(a) ~ H(a) (7-14) 
= max(1 - a)H(x) (7-15) 
-1-a (7-16) 


其 中 ， 当 nr=1/2 时 ， 达到 该 信道 容量 。 
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这 个 信道 容量 的 表达 式 有 其 直观 的 意义 : 由 于 比例 为 a 的 比特 在 信道 中 损失 , 因而 我 们 (至 
多 ) 能 够 恢复 比例 为 1 -a 的 比特 。 因 此 , 容量 至 多 为 1 - a。 但 码 率 是 否 真 的 可 以 达到 这 个 值 并 
不 十 分 明显 , 这 可 以 从 香农 第 二 定理 推出 。 

对 于 许多 实际 的 信道 , 发 送 者 会 从 接收 者 那里 收 到 一 些 反馈 。 如 果 二 元 擦 除 信道 中 存在 反 
馈 , 那么 很 清楚 下 一 步 该 做 什么 : 如 果 一 个 比特 损失 了 , 那么 重新 传输 它 , 直到 其 顺利 通过 为 止 。 
由 于 所 有 比特 以 概率 1- c 通过 , 所 以 传输 的 有 效 码 率 就 是 1 一 a。 在 这 种 方式 下 , 通过 反馈 可 以 
容易 地 达到 容量 1 一 a。 

在 本 章 后 面 的 部 分 中 , 将 证 明 , 无 论 有 无 反馈 , 1-a 都 是 信道 可 以 达到 的 最 高 码 率 。 这 个 事 
实 令 人 惊讶 , 也 就 是 说 反馈 并 不 能 增加 离散 无 记忆 信道 的 容量 。 


7.2 对称 信道 


二 元 对 称 信道 的 容量 是 C= 1- HCP He Ae, RRE 首 的 容量 是 C=1- x AE 
输 。 下 面 考 虑 具有 如 下 转移 矩阵 的 信道 
0.3 0.2 0.5 
bye)=|10.5 0.3 0.2 
0.2 0.5 0.3 
上 述 矩 阵 中 的 第 z 行 第 y 列 的 元 素 表示 条 件 概 率 p(y|x)， 即 传输 z 收 到 y 的 概率 。 在 该 信道 
中 , 概率 转移 矩阵 中 所 有 的 行 都 可 以 通过 其 他 行 置换 得 到 , 每 一 列 也 如 此 。 这 样 的 信道 称 为 对 称 
的 (symmetric)。 另 一 个 对 称 信道 的 例子 如 

Y=X+Z (mod c) (7-18) 

其 中 Z 服从 整数 集 {0,1,2,…,c 一 1| 上 的 某 个 分 布 , X 与 Z 拥有 相同 的 字母 表 , 并 且 2Z 独立 于 
X。 

在 上 述 两 种 情况 中 , 我 们 能 够 容易 地 求 得 信道 容量 的 显 表 达 式 。 设 r 表示 转移 矩阵 的 一 行 ， 
则 有 


(7-17) 








I(X;Y)=HCY)-HCY|X) (7-19) 
=H(Y)- H(r) (7-20) 
< logly| ~ H(r) (7-21) 


当 输 出 是 均匀 分 布 时 等 号 成 立 。 而 且 , p(e)=1/8| AE Y 达到 均匀 分 布 , 这 可 由 如 下 式 子 
看 出 


p(y) = Se | Dele) = Dew) = era TH (7-22) 


其 中 -< 是 概率 转移 矩阵 的 一 一 列 中 所 有 元 素 之 和 。 

于 是 , 式 (7-17) 中 的 信道 容量 为 

C= maxI(X; Y) =log3-— H(0.5,0.3,0.2) (7-23) 

HEMRA DHERA Co 

如 上 定义 的 对 称 信道 的 转移 矩阵 是 双 随 机 的 。 在 计算 信道 容量 时 , 我 们 用 到 了 转移 矩阵 中 
行 与 行 互 为 置换 以 及 各 列 元 素 之 和 都 相等 的 性 质 。 

基于 这 些 人 性质 , 可 以 对 对 称 信道 的 概念 进行 如 下 的 推广 : 

定义 ”如果 信道 转移 矩阵 p(y|z) 的 任何 两 行 互相 置换 ; 任何 两 列 也 互相 置换 , 那么 称 该 信 
道 是 对 称 的 (symmetric)。 如 果 转 移 矩 阵 的 每 一 行 p(* | x) 都 是 其 他 每 行 的 置换 , 而 所 有 列 的 元 素 
AUS) p(y | x) 相等 , 则 称 这 个 信道 是 弱 对 称 的 (weakly symmetric) o 
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例如 , FBR 


plylz)= 





| aw 


wl wl. 
Nl oj 


[190] ”的 信道 是 弱 对 称 的, 但 不 对 称 。 


上 面 关 于 对 称 信道 的 一 些 结论 同样 适用 于 弱 对 称 信道 。 除 此 之 外 , 对 于 弱 对 称 信 道 ,， 我们 还 
有 下 列 定理 : 
定理 7.2.1 对 于 弱 对 称 信道 ， 
C=loglY | — H( 445 E Eth 47) (7-25) 
当 输 入 字母 表 上 的 分 布 为 均匀 时 达到 该 容量 。 


7.3 信道 容量 的 性 质 


. AF ICX;Y)>0, 所 以 C20. 
, 由 于 C=maxl(X; Y)< maxH(X)< log|4’|, 所 以 CX loglX|。 
. C< log Y|, 理由 同上 。 
. I( 义 ;了 ) 是 关于 p(xz) 的 一 个 连续 函数 。 
. I(X;Y) BEF 加 (z) 的 止 函数 (定理 2.7.4)。 由 于 TI(X;Y) 是 闭 凸 集 上 的 凹 函数 ， 因 而 
局 部 最 大 值 也 是 全 局 最 大 值 。 由 上 述 性 质 2 和 3 可 以 看 出 , 最 大 值 是 有 限 的 , 这 证 实 了 在 容量 的 
定义 中 使 用 max 而 不 用 sup 记号 是 合理 的 。 最 大 值 可 以 利用 标准 的 非 线性 最 优化 技术 (如 梯度 搜 
索 ) 求 解 。 下 面 这 些 方法 都 可 以 考虑 : 

。 利 用 微 积分 和 库 恩 一 塔 克 条 件 求解 带 约束 的 最 大 化 问题 。 

。 Frank-Wolfe 梯度 搜索 算法 。 

。 由 Arimoto[25] 和 Blahut[65] 开 发 的 迭代 算法 。 在 10.8 节 中 详细 令 述 该 算法 。 

一 般 得 不 到 信道 容量 的 解析 解 (elosed-form solution), 但 对 于 很 多 简单 的 信道 , 可 以 利用 它们 
的 特性 (如 对 称 性 ) 来 计算 出 信道 容量 。 前 面 例子 中 提 到 过 的 那些 信道 就 具有 和 解析 解 。 


7.4 信道 编码 定理 预览 


到 现在 为 止 , 我 们 已 经 给 出 了 离散 无 记忆 信道 的 信息 容量 定义 。 在 下 -- 节 中 , 我 们 将 证 明 香 
农 第 一 定理 , 它 给 出 了 容量 定义 的 可 操作 性 解释 , 即 容量 可 以 视 为 能 够 在 该 信道 中 可 靠 传输 的 比 
特 数 。 但 首先 将 尝试 给 出 一 个 直观 思路 , 解释 为 什么 能 通过 信道 来 传输 C 比特 的 信息 。 基 本 思 
路 是 , 对 于 大 的 分 组 长 度 , 每 个 信道 可 以 看 作 是 有 了 噪声 y” 
打字 机 信道 (图 7.4), 由 此 每 个 信道 都 有 一 个 输入 子 集 ， 2 
使 得 在 输出 端 接收 到 的 序列 基本 上 互 不 相交 。 

对 于 输入 的 每 个 (典型 的 )n 长 序列 , SAKA 
2"H(YIX) 个 可 能 的 了 序列 与 之 对 应 , 并 且 所 有 这 些 序列 
是 等 可 能 的 (如 图 7-7)。 我 们 希望 确保 没有 两 个 X 序列 
能 够 产生 相同 的 Y 输出 序列 。 否则, 将 无 法 判断 到 底 
传输 的 是 哪个 六 序列 。 

所 有 可 能 的 (典型 的 ) Y 序列 的 总 数 约 等 于 2 , 

对 应 于 不 同 的 输入 X 序列 , 这 个 集合 分 割 成 大 小 为 图 7-7 次 使 用 下 的 信道 


全 
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2 的 许多 个 小 集合 。 所 以 不 相交 集 的 总 数 小 于 等 于 2M BOO HOO) =2w06。 因 此 ,我 们 
至 多 可 以 传输 ~2"0 个 可 区 分 的 长 序列 。 

虽然 以 上 讨论 只 是 大 致 描述 了 容量 的 上 界 ,在 下 一 节 中 ,将 用 更 加 严格 的 语言 来 证 明码 率 I 
是 可 达到 的 ,而 且 误差 概率 可 以 任意 低 。 

在 开始 香农 第 二 定理 的 证 明之 前 , 我 们 需要 一 些 定义 。 


7.5 定义 
我 们 分 析 如 图 7-8 所 示 的 通信 系统 。 





的 估计 
图 7-8 通信 信道 
取 自 下 标 集 11,2,…, Mi 的 消息 W, 产生 信号 X(W), 这 个 信号 以 随机 序列 Y~ p(y" laz") 


的 方式 被 接收 者 收 到 。 然 后 ,接收 者 使 用 适当 的 译 码 规则 名 = g( YORE W RWS 
传输 的 消息 Ww 不 同 , 则 表明 接受 者 出 错 。 下 面 我 们 严格 定义 这 些 思路 。 

定义 ”用 (全 ,p(y|x),》) 表 示 的 离散 信道 由 两 个 有 限 集 基 和 小 以 及 一 簇 概率 密度 函数 polr) 
(cEX) aR, 其 中 对 任意 z Sy, 有 p(y|zx) 宇 0, 以 及 对 任意 的 zx, A D ply1x) 1, 而 XX 和 


Y 分 别 看 作 信道 的 输入 与 输出 。 
定义 ”离散 无 记忆 信道 (DMC) 的 n ky RERE, ply la), Y"), 其 中 
Poel ato = p(y zx), k=1,2,.,n (7-26) 
注释 ”如 果 信 道 不 带 反 馈 , 也 就 是 说 ， 如 果 输 入 字符 不 依赖 于 过 去 的 输出 字符 ， 即 
plal! y) = plalat!), BARRERAE 次 扩展 的 信道 转移 函数 就 简化 为 


p(y la") = TL p(y | x;) (7-27) 


在 讨论 离散 无 记忆 信道 时 , 除非 明确 指出 , 一 般 都 是 指 不 带 反 馈 的 离散 无 记忆 信道 。 
定义 ”信道 (人 革 ,p(y|z), 站 ) 的 (IM,n) 码 由 以 下 部 分 构成 : 
1. 下 标 集 {1,2,…,M)。 
2. SW PBX": 11,2,…, Mtoe an, 生成 码 字 xz”"(1) ,x"(2),…,x"(M)。 所 有 码 字 的 集合 称 
作 码 簿 (codebook)。 f 19 
3. 译 码 函数 


ww 


gi:y">|1,2,.…,M)} (7-28) 
它 是 一 个 确定 性 规则 , 为 每 个 收 到 的 字符 向 量 指定 一 个 猜测 。 
定义 (条 件 误差 概率 ) 设 
A; = Pr(g(¥") #i | X = x"(i)) = des" | z"(i))I(g(y') A i) (7-29) 


为 已 知 下 标 i 被 发 送 的 条 件 下 的 条 件 误差 概率 (conditional probability of error), 其 中 TC) BARE 
函数 。 
定义 ”(M,n) 码 的 最 大 误差 概率 A™ (maximum probability of error) 定 义 为 
4% = max A; (7-30) 


1€(1,2,-+,M) 


定义 ”(M,n) 码 的 (算术 ) 平 均 误 差 概 率 P (average probability of error) XA 
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PO = Xa (7-31) 
注意 , 如果 下 标 WW 是 从 集合 和 1,2,… ,M1 中 的 均匀 分 布 中 选 出 的 , 以 及 X"=2"(W), wW 
P APr( Wg( Y")) (7-32) 
( 即 PS 为 误差 概率 。) 显 然 , 有 
Prd Ain (7-33) 


人 们 一 般 期 望 ,最 大 误差 概率 与 平均 误差 概率 的 性 质 有 相当 大 的 差异 。 然 而 , 在 下 一 节 中 我 们 将 
证 明 , 在 相同 的 码 率 下 , 平均 误差 概率 很 小 可 以 推出 它 的 最 大 误差 概率 也 很 小 。 

值得 注意 的 是 , 式 (7-32) 中 定义 的 POO 仅 是 条 件 误差 概率 ); 的 一 种 数学 构造 , 它 本 身 成 为 
误差 概率 只 有 当 消 息 均匀 取 自 消息 集 {1,2,…,2M| 时 才 成 立 。 然 而 , 不 论 是 在 可 达 性 的 证 明 中 ， 
还 是 其 逆 命 题 中 , 都 选取 W 上 的 均匀 分 布 来 界定 误差 概率 。 这 使 我 们 能 够 确定 Pl” 以 及 最 大 
误差 概率 ji" 的 行为 , 从 而 , 不 论 信道 是 如 何 使 用 的 , 也 能 刻画 出 信道 的 行为 ( 即 不 考虑 W 的 分 布 
是 什么 )。 

定义 〈(M,z) 码 的 码 率 R(rate) 为 


R= REM 比特 /传输 (7-34) 
定义 ”如 果 存 在 一 个 ([2 中 1,n) 码 序列 ,满足 当 一 0 时 ,最 大 误差 概率 "一 0, 则 称 码 率 R 


是 可 达 的 (achievable) 。 
为 简化 记号 , 以 下 我 们 将 用 (2 下 ,nn ) 码 来 表示 ([2 们 1,n) 码 。 
定义 ”信道 的 容量 定义 为 所 有 可 达 码 率 的 上 确 界 。 
FE, 对 于 充分 大 的 分 组 长 度 , 小 于 信道 容量 的 码 率 对 应 的 误差 概率 可 以 任意 小 。 


7.6 联合 典型 序列 


粗略 地 说 ,如 果 码 字 (i) 与 接收 到 的 信号 Y 是 “联合 典型 ”的话 , 就 将 信道 输出 Y 译 为 
第 i 个 下 标 。 现 在 来 定义 联合 典型 这 一 重要 的 概念 , 并 且 计 算 当 六 确实 由 X*( 让 产生 与 不 是 由 
X"(i) 产 生 时 , 这 两 种 情况 所 对 应 的 联合 典型 概率 。 
定义 ”服从 分 布 p(x,y) 的 联合 典型 序列 | {x",y'11 所 构成 的 集合 A” 是 指 其 经 验 炉 与 真实 
W e 接近 的 长 序列 构成 的 集合 , 即 : 
AP = |(2", y") EX" XY": 





-Tiogp(z)- HO) | <e (7-35) 
-Jiogp(y)- H(Y)| <e (7-36) 
-Jogp(zsy) -HX ¥)| <e] (7-37) 
其 中 
pla”, y") = TI aes) (7-38) 


定理 7.6.1( 联 合 AEP) H(X, Y") ARA plz", y") = T pxi,%) 的 i.i.d 的 n 长 序列 ， 


那么 : 
1. 当 n>m, Pr((X", YY')E A”) 1. 
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2. [AM |< 27(H(X, ¥)+e) | 


3. R(X, ¥")~ p(x") p(y"), 即 XX" 与 7" 是 独立 的 且 与 p(x",y") 有 相同 的 边际 分 布 , 屠 
A 








Pr((X", Y")E A )< 272X: Y) ~3e) (7-39) 
而 且 ， 对 于 充分 大 的 n, 
Pr((X", Ý )EA™ )> (1 — € )27 2G Y) + 3e) (7-40) 
EAA: 
1. 首先 证 明 , 包含 在 典型 集中 的 序列 具有 很 高 的 概率 。 由 弱 大 数 定律 ， 
-二 logp(X") 一 -Ellogp(X)]=H(X) 依 概率 (7-41) 
因此 , 给 定 e>0, 存在 ni, 使 得 对 于 任意 n>n, 
Pr -logp(X")- H(X) |> e)<$ (7-42) 
类 似 地 , 由 弱 大 数 定律 ， 
-Llogp(Y")>- E[logps(Y)]= HY) 依 概率 (7-43) 
以 及 
~ Liogp( x", Y) >- Ellogp(X,Y)]= H(X,Y) 依 概率 (7-44) 
从 而 ， 存在 n2 和 ?3 使 得 对 于 任意 n> N25 
Pr( -Llog Y") - HCY) |> e)<$ (7-45) 
以 及 对 任意 的 n> nz, 
Pr( -Liogp( x", Y") - HX, Y) |> e)<$ (7-46) 





选取 n>max(n1,n2,n3), 则 式 (7-42)、(7-45) 和 式 (7-46) 中 的 集合 之 并 的 概率 必定 小 于 e。 因 
此 , 对 于 充分 大 的 n, 集合 AY 的 概率 大 于 I-e, 从 而 证 明了 定理 的 第 一 部 分 。 
2. 为 证 明定 理 的 第 二 部 分 , 我 们 注意 到 


1= >) p(2",9") (7-47) 
> >) p(x", y") (7-48) 
AS” 
> | Aw”) | 2-z(CHCX,Y)+e) - (7-49) 
因此 
| AM” I< 27(H(X, Y)+e) (7-50) 
3. 现在 , WRX Sy 相互 独立 , 但 是 与 X AY 分 别 具 有 相同 的 边际 分 布 , 那么 
Pr((X",¥") € AM) = 之 pla") p(y") (7-51) 
r wea” 
< Dr Y)te)g-n n(H(X)- e)g-a(H(Y)-e) (7-52) 
= Q- nUOG Y)-3e) (7-53) 
对 充分 大 的 n, P(A) 之 1 一。, 因此 
t-e< >) p(z".y’) (7-54) 


EA” 
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<| Aw” | 2-1 A(X, Y)-e) (7-55) 
以 及 l 
| A® [> (1 - e) HX D-0) (7-56) 
类 似 上 界 估计 的 讨论 , 也 可 以 证 明 , 对 充分 大 的 n, 
Pr((X",Y") € AY?) = Dpr) p(y") (7-57) 
> a _ E)27 HX, Y)-2)9~n( A(X) +6) 9-0 (HY) +e) (7-58) 
= (1 — 2g mls 9 43e) (7-59) 


图 7-9 是 关于 联合 典型 集 的 示意 图 。 大 约 有 2"242) AH X AKA 2H 个 典型 的 了 
序列 。 但 是 ,联合 典型 序列 只 有 ESPA, 所 以 并 不 是 所 有 典型 的 X' 与 典型 的 YY 构成 的 序列 
对 都 是 联合 典型 的 。 随 机 选取 的 序列 对 是 联合 典型 的 概率 大 约 为 2-227。 因 此 , 我 们 很 可 能 需 
BEE Bey 2X) 个 这 样 的 序列 对 ， 才 可 能 遇 到 一 个 联合 典型 对 。 这 表明 存在 大 约 2"(X;， 个 可 区 
分 的 信号 Xo 


y” 





图 7-9 联合 典型 序列 


着 眼 上 述 问题 的 另 一 种 方式 是 考虑 固定 输出 序列 Y 下 的 联合 典型 序列 集 , 这 里 假定 该 输出 
序列 来 自 真实 的 输入 信号 六。 对 于 序列 Y, 大 约 存 在 HOY 个 条 件 典型 的 输入 信号 。 某 个 随 
机 选取 的 (其 他 ) 输入 信号 X 与 Y 为 联合 典型 的 概率 大 约 等 于 ZY YHOO = 2 0450。 这 
再 次 表明 , 我 们 可 能 选取 出 大 约 29 个 码 字 XW), 才能 使 其 中 的 一 个 码 字 与 产生 输出 Y 
的 对 应 码 字 混淆 起 来 。 


7.7 ”信道 编码 定理 


我 们 现在 证 明 信 道 容量 的 可 达 性 , 这 也 许 是 信息 论 中 最 基本 的 定理 。 最 初 的 证 明 由 香农 在 
1948 年 的 开创 性 论文 中 给 出 。 该 结果 与 直观 感觉 正好 相反 。 如 果 在 信道 传输 过 程 中 存在 误差 ， 
那么 如 何 纠正 所 有 误差 ?任何 纠 错 过 程 本 身 也 要 受到 误差 的 影响 , 这 样 将 无 穷 无 尽 地 进行 下 去 。 

为 了 证 明 只 要 码 率 小 于 信道 容量 , 信息 就 可 以 通过 该 信道 可 靠 地 传输 ,香农 使 用 了 许多 新 的 
思想 。 这 些 思想 包括 : 

。 允许 任意 小 的 非 0 误差 概率 存在 ， 

。 连续 使 用 信道 许多 次 ,以 保证 可 以 使 用 大 数 定 律 ， 

。 在 随机 选择 的 码 禾 上 计算 平均 误差 概率 , 这 样 可 以 使 概率 对 称 , 而 且 可 以 用 来 证 明 至 少 

存在 一 个 好 的 编码 。 
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香农 的 概述 性 证 明基 于 典型 序列 的 思想 , 其 严格 的 证 明 直 到 很 晚 才 给 出 。 下 面 将 要 给 出 的 
证 明 利 用 了 典型 序列 的 性 质 , 而 且 可 能 也 是 至 今 为 止 给 出 的 最 简单 的 证 明 。 在 所 有 的 证 明 中 ,都 
使 用 了 相同 的 基本 思想 一 一 随机 码 选 择 , 计算 随机 选择 的 码 字 的 平均 误差 概率 , 等 等 。 主 要 的 差 
别 在 于 译 码 规则 。 在 这 个 证 明 中 , 我 们 使 用 联合 典型 性 译 码 规则 , 即 寻找 一 个 与 收 到 的 序列 是 联 
合 典型 的 码 字 。 如 果 找 到 惟一 满足 该 性 质 的 码 字 , 我 们 则 认为 这 就 是 被 发 送 的 码 字 。 依 据 前 面 
所 述 的 联合 典型 性 的 性 质 , 由 于 发 送 的 码 字 与 接收 到 的 序列 是 概率 相关 的 , 所 以 它们 以 很 高 的 概 
. 率 成 为 联合 典型 。 并 且 , 任意 其 他 码 字 与 接收 到 的 序列 是 联合 典型 的 概率 是 2 "。 因 此 ,如果 码 
字 个 数 小 于 2”, 那么 可 以 以 很 高 的 概率 断定 不 会 有 其 他 的 码 字 能 够 与 被 传输 的 码 字 相 混淆 , 并 
且 误差 概率 很 小 。 

虽然 联合 典型 译 码 仅 是 次 优 的 , 但 它 便 于 分 析 而 且 可 以 达到 小 于 信道 容量 的 任何 码 率 。 

下 面 就 给 出 香农 第 二 定理 的 完整 叙述 及 其 证 明 

定理 7.7.1 (信道 编码 定理 ) 对 于 离散 无 记忆 信道 ,小 于 信道 容量 C 的 所 有 码 率 都 是 可 达 
的 。 具 体 来 说 , AERAR RSC, 存在 一 个 (2 中 ,n) 码 序列 , 它 的 最 大 误差 概率 为 4(" 一 0。 

反之 ， 任 何 满足 AO 的 (2 四,n) 码 序列 必定 有 RS Co 

证 明 : 证 明 小 于 C 的 码 率 R 是 可 达 的 ,而 将 道 定理 的 证 明 放 在 7.9 节 。 

可 达 性 : 固定 p(x) ,根据 分 布 p(xz) 随 机 生成 一 个 (2 人 下 ,n) 码 。 具 体 来 说 , 根据 分 布 


p(x”) = TI px) (7-60) 
独立 生成 2 下 个 码 字 。 将 2 中 个 码 字 展开 为 矩阵 的 行 : 
zx1(1) Za(1) … a(l) 
-| : : (7-61) 
(2%) z2) … x,(2") 


该 矩阵 中 的 每 一 项 都 是 依据 i.i.d 服从 p(xz) 而 生成 的 。 因 此 , 我 们 生成 一 个 特定 码 C 的 概率 
就 是 
Pr(C) = il TI p(x) (7-62) 
考虑 下 面 的 系列 事件 : 
1. 如 式 (7-62) 中 所 述 , 服从 分 布 bp(z) 的 随机 码 C 生 成 。 
2. 然后 将 码 C 告知 给 发 送 者 和 接收 者 , 并 且 假 定 二 者 都 知道 该 信道 的 信道 转移 矩阵 
ply|zx)o 
3. 依 如 下 的 均匀 分 布 选 取 一 条 消息 W 
Pr(W=w)=2°™", w=1,2,7,2% (7-63) 
4. 第 w EFX (w) CHA w 行 , 通过 该 信道 被 发 送 。 
5. 接收 者 收 到 的 序列 Y 服从 分 布 


PO 1 a" (w)) = I ply, 1 zi(w)) (7-64) 


6. 接收 者 猜测 所 发 送 的 消息 是 什么 。 (使 误差 概率 达到 最 小 的 最 优 方法 是 最 大 似 然 译 码 ， 也 
就 是 说 , 接收 者 应 该 选择 后 验 (a posteriori) 概 率 最 大 的 消息 。 但 是 这 个 过 程 很 难 分 析 。 取 而 代 
之 , 使 用 下 面 描述 的 联合 典型 译 码 (jointly typical decoding)。 这 种 方法 易于 分 析 而 且 是 渐 近 最 优 


的 。) 如 果 满 足下 面 的 两 个 条 件 , 则 接收 者 认为 W 就 是 所 发 送 的 下 标 。 
© (X(W), 好) 是 联合 典型 的 。 
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。 不 存在 其 他 的 下 标 WA WHE XW’), YEA”, 


如 果 这 样 的 贸 不 存在 ,或 者 有 超过 一 个 这 样 的 多, 则 断言 发 生 了 错误 (在 这 种 情况 下 , 假定 
接收 者 给 出 一 个 哑 下 标 , 例如 0)。 


7. MRWAW, 则 说 明 译 码 错误 , ERR WAW. 

误差 概率 分 析 

概述 : 我 们 首先 简要 分 析 一 下 。 我 们 计算 所 有 随机 生成 的 码 ( 服 从 式 (7-62) 的 分 布 ) 的 平均 误 
差 概 率 , 而 不 是 某 一 个 码 的 误差 概率 。 根 据 编码 构造 的 对 称 性 , 平均 误差 概率 不 依赖 于 被 发 送 的 
具体 下 标 。 对 一 个 典型 码 字 , 在 使 用 联合 典型 译 码 时 , 存在 两 种 不 同 的 误差 源 : 输出 Y 与 被 传 
输 的 码 字 并 不 是 联合 典型 的 , 或 者 存在 其 他 码 字 与 Y 是 联合 典型 的 。 正 如 证 明 联合 AEP, 被 传 
输 的 码 字 与 接收 到 的 序列 是 联合 典型 的 概率 趋 于 1。 对 任意 一 个 竞争 码 字 , 它 与 接收 到 的 序列 是 
联合 典型 的 概率 大 约 为 2-", 因此 , 可 以 使 用 大 约 +S, 并 且 仍 然 保 持 很 低 的 误差 概率 。 
稍 后 我 们 会 推广 这 个 论述 来 寻求 一 个 码 使 得 最 大 误差 概率 很 低 。 

误差 概率 的 具体 计算 ; 设 W 服从 {1,2,… ,2 下 | 上 的 均匀 分 布 , 并 且 利用 步骤 6 中 描述 的 联 


SHAE W(y"). RE=(W(Y AW! 表示 误差 事件 。 现 在 计算 平均 误差 概率 , 这 里 的 平均 
取 自 码 短 中 的 所 有 码 字 以 及 所 有 码 夭 。 也 就 是 计算 


Pr(E) = >)Pr(C)P(D(C) (7-65) 
C 

= EPC) Sa XC) (7-66) 

= zR 2 PCO) (7-67) 


其 中 PO (C) 是 针对 联合 典型 译 码 定义 的 。 根 据 码 构造 的 对 称 性 , 取 自 所 有 码 上 的 平均 误差 概率 
并 不 依赖 于 发 送 的 具体 下 标 , 也 就 是 说 ， 二 Pr(C))u(C) 不 依赖 于 w。 于 是 , 不 失 一 般 性 , 可 以 假 
定 发 送 的 消息 是 W = 1, 这 是 由 于 


pr(E) = kS DPOC) (7-68) 
= >)Pr(C)A1(C) (7-69) 
= P(E |W=1) (7-70) 
定义 下 列 事件 : 
E,={(X"(i), Y") Æ A p}, i€11,2,…,2| (7-71) 
其 中 E, 表示 第 i 个 码 字 与 Y 为 联合 典型 的 这 一 事 体 。 回 忆 一 下 ，Y" 是 在 信道 上 发 送 第 一 个 码 
字 和 (1) 而 得 到 的 结果 。 


如 果 ES 发 生 ( 当 传输 的 码 字 与 接收 到 的 序列 是 非 联合 典型 时 )， 或 者 E UEU UE RE 

( 当 一 个 错误 的 码 字 与 接收 到 的 序列 是 联合 典型 时 ), 则 在 译 码 时 会 出 现 错误 。 因此 , 设 PER 
AR Pr(E1W=1), 根据 事件 之 并 , RIA 

Pr(€E| W=1) = P(E UE: UEU = UE| W=1) (7-72) 


<PEIW=1)+ > P(E; |W =1) (7-73) 
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由 联合 AEP EE, P(E\)>0, 因而 

P(Ei|W=1)<e 对 充分 大 的 (7-74) 
从 编码 的 生成 过 程 可 以 看 出 ，X”(1) 与 X"(i)(i 关 1) 是 独立 的 , 所 以 Y 与 X'(i) 也 是 独立 的 。 因 
此 , 根据 联合 AEP 的 性 质 ，X"(i) 与 Y 是 联合 典型 的 概率 < 2 "4230。 从 而 , 如 果 充分 
大 且 尺 < I(X;Y) —3e BY, 


2 
Pr(E) = Pr(E | W = 1)< P(E, | W = 1)+ >) PCE; | W = 1) (7-75) 
i=2 
2" 
过 et $3 2770X: Y)-3e) (7-76) 
i=2 
二 E+ (278 _ 1)277 UGG Y)=3e) (7-77) 
之 et g3neg—n (Xs ¥)-R) (7-78) 
<2e (7-79) 


因此 , MR RI(X;Y), 可 以 选取 适当 的 An, 使 得 取 自 所 有 码 短 和 码 字 上 的 平均 误差 概率 
小 于 2e。 
为 了 完成 这 个 证 明 , 通过 选取 一 系列 码 来 加 强 该 结论 。 
1. 将 证 明 中 的 p(xz) 变 为 p* (xz), 即 达 到 信道 容量 时 关于 X 的 分 布 。 此 时 , 条件 R< 
I(X;Y) 可 由 可 达 性 条 件 R<C 所 替代 。 
2. 去 除 码 籍 上 的 平均 。 由 于 在 所 有 码 绑 上 的 平均 误差 概率 比较 小 (三 2e), 所 以 至 少 存在 一 
个 码 敌 C* 具 有 小 的 平均 误差 概率 。 于 是 ，Pr(E1C* )<< 2e。 若 想 找 到 C* 可 以 穷 举 搜索 所 
有 的 (2 中 ,n) 码 。 注 意 到 


PE 1C*) = SRDA) (7-80) 


这 是 因为 我 们 以 式 (7-63) 中 给 定 的 均匀 分 布 选 取 玉 。 
3. 抛弃 最 佳 码 簿 C* 中 最 差 的 一 半 码 字 。 由 于 这 个 码 的 算术 平均 误差 概率 Pr(C* ) 小 于 2e, 
我 们 有 


PEICK sR D(C" )< 2e (7-81) 


这 说 明 至 少 有 一 半 的 下 标 i 及 其 对 应 的 码 字 X"(i) 的 条 件 误差 概率 ji 小 于 4e( 否 则 , 这 些 
码 字 本 身 的 和 就 将 大 于 2e)。 因 此 ， 所 有 码 字 中 最 佳 的 一 半 的 最 大 误差 概率 必定 小 于 4e。 
如 果 重 新 检索 这 些 码 字 , AA ! 个 码 字 。 抛 弃 一 半 码 字 使 得 码 率 由 REIR- M 
4 充分 大 时 ,这 是 可 忽略 的 。 
结合 所 有 这 些 改进 , 我 们 已 经 构造 了 一 个 码 率 为 R'= R -二 的 码 , 它 的 最 大 误差 概率 A"< 
4e。 这 就 证 明了 任何 小 于 信道 容量 的 码 率 都 是 可 达 的 。 口 
可 以 看 出 , 随机 编码 是 证 明定 理 7.7.1 的 方法 , 而 不 是 发 送信 号 的 方法 。 在 证 明 中 码 被 随机 
选择 仅 是 为 了 达到 数学 上 的 对 称 性 以 及 一 个 好 的 确定 性 码 的 存在 性 。 我 们 证 明了 分 组 长 度 为 n 
的 所 有 码 上 的 平均 有 较 小 的 误差 概率 。 通 过 穷 举 搜索 , 也 可 以 找到 这 个 集合 中 的 最 佳 码 。 顺 便 
提 及 一 下 , 这 也 表明 了 最 佳 码 的 科 尔 莫 戈 罗 夫 复杂 度 ( 见 第 14 章 ) 是 一 个 小 常数 。 这 意味 着 将 最 
佳 码 C* 告 知 发 送 考 和 接收 者 (在 步骤 2 中 ) 并 不 需要 使 用 信道 。 发 送 者 与 接收 者 仅 需要 同意 在 信 
道中 使 用 最 佳 (2 中 ,n) 码 就 可 以 了 。 
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虽然 这 个 定理 说 明了 对 于 大 的 分 组 长 度 , 存在 误差 概率 任意 小 的 好 码 , 但 它 并 没有 提供 一 种 


构造 最 佳 码 的 方法 。 如 果 使 用 定理 证 明 中 的 方法 , 根据 适当 的 分 布 随机 地 生成 一 个 码 , 那么 对 于 


充分 大 的 分 组 长 度 , 这 样 构造 出 来 的 编码 可 能 是 很 好 的 。 然 而 , 由 于 该 编码 中 缺乏 某 个 结构 , 译 
码 将 是 非常 困难 的 (简单 的 查 表 方 法 也 需要 一 个 指数 级 大 小 的 表 )。 因 此 , 这 个 定理 并 不 能 提供 
一 个 实际 的 编码 方案 。 自 香农 在 信息 论 方面 的 开篇 之 作 问 世 以 来 ,研究 者 们 试图 发 气 易 于 编 和 
译 的 构造 性 编码 。 在 7.11 节 将 讨论 一 种 最 简单 的 代数 纠 错 码 一 一 汉 明 (Hamming) 码 , 它 能 在 每 
个 比特 分 组 中 纠正 一 个 错 。 自 香农 的 论文 发 表 以 来 , 各 种 各 样 的 技术 涌现 出 来 用 于 构造 纠 错 码 ， 
特别 是 turbo 码 接近 了 高 斯 信道 容量 。 


7.8 Brey 


在 允许 完全 无 误差 的 情况 下 , 审视 上 面 定理 的 论证 过 程 , BRTURKH RRM TRE 
理 的 简要 证 明 。 首 先 证 明 P =0 蕴含 结论 R< C。 假 定 有 一 个 零 误 差 概 率 的 (2 天 ,”) 码 ,也 就 
是 说 , 译 码 器 输出 的 g( 号 ) 以 概率 1 等 于 输入 的 下 标 W. BRA, 输入 下 标 W 完全 由 输出 序列 决 
定 ( 即 HCW|Y")=0). WY RBRRW AR, 随意 假定 W 服从 |11,2,…,2™} 上 的 均匀 分 布 , 于 
是 , H(W)=oR, AM, 我 们 有 如 下 的 一 串 不 等 式 : 


nR = H(W)=H(W\| Y") + IC W; Y°) (7-82) 
HOWIY) 

=I(W; Y”) (7-83) 

SCX"; Y") (7-84) 

25) Xs Y) (7-85) 

SnC (7-86) 


其 中 (a) 由 数据 处 理 不 等 式 推出 (由 于 WX" WY 形成 马尔 可 夫 链 ),(b) 会 在 引 理 7.9.2 中 
生 助 离散 无 记忆 假设 得 到 证 明 ，(c) 直接 由 (信息 ) 容 量 的 定义 推出 。 因 此 , 对 任何 零 误 差 的 
(2 下 ,2 ) 码 及 所 有 的 n, 

R&C (7-87) 


7.9 ” 费 诺 不 等 式 与 编码 定理 的 逆 定 理 


下 面 将 零 误 差 码 的 证 明 过 程 推广 到 具有 非常 小 误差 概率 的 编码 。 证 明 中 需要 的 新 工具 就 是 
费 诺 不 等 式 , 它 依 据 条 件 科 给 出 误差 概率 的 下 界 。 回 忆 一 下 费 诺 不 等 式 的 证 明 , 为 便于 参考 , 将 
它 重 述 如 下 。 

先 给 出 一 些 定义 。 下 标 W 服从 集合 W = {1,2,… ,2 中 } 上 的 均匀 分 布 , 序列 Y 与 W 是 概率 
相关 的 。 通 过 Y" 来 估计 被 发 送 的 下 标 殉 。 设 多 = g(Y) 为 其 估计 , BA, WX (WwW) > Yo 
儿 形 成 马尔 可 夫 链 。 注 意 到 误差 概率 为 

Pr( WW) = sak i = po (7-88) 

我 们 先 给 出 下 面 的 引 理 , 它 的 证 明 在 2.10 节 中 。 

引 理 7.9.1( 费 诺 不 等 式 ) 设 离散 无 记忆 信道 的 码 竹 为 C, 且 输 入 消息 WW 服从 2 下 上 的 均匀 
TA, 则 有 

H(W|W)<1+ P™®nR (7-89) 
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证 明 : 由 于 太 服从 均匀 分 布 , 则 有 POO =Pr(WAW), MAD 2 ob FARK P OW 应 用 

费 诺 不 等 式 (定理 2.10.1), 可 得 到 引 理 的 证 明 。 口 
现在 证 明 下 面 的 引 理 , 它 说 明 如 果 多 次 使 用 离散 无 记忆 信道 , 每 次 传输 的 容量 并 不 增加 。 
引 理 7.9.2 设 Y AX 经 过 容量 CC 离散 无 记忆 信道 传输 所 得 到 的 输出 信号 。 则 


TCX"; ¥2)< nC 对 于 任意 的 p(x”) (7-90) 
RA: 由 离散 无 记忆 信道 的 定义 ，Y; 仅 依 赖 于 X 而 与 其 他 所 有 变量 都 是 条 件 独立 的 。 所 以 有 
I(X;Y") = HCY") — HCY” | X”) (7-91) 
= HOY) - X HCY; | Yiye, Yin X") (1-92) 
= H(Y¥") - HC Y; 1 X,) (7-93) 
继续 该 系列 不 等 式 , 我 们 有 
IXY") = HO”) - HCY | X;) (7-94) 
= DIX YI) (7-96) 
< nC (7-97) 
其 中 式 (7-95) 基于 如 下 事实 得 到 : KLE DTS ARAA 7-97) 直接 由 容量 的 定 
义 推 出 。 这 样 ,就 证 明了 多 次 使 用 信道 并 不 增加 每 次 传输 的 信息 容量 比特 。 im 


现在 我 们 已 经 有 充分 的 准备 来 证 明 信 道 编码 定理 中 的 逆 定 理 。 

证 明 : 定理 7.7.1( 信 道 编码 定理 ) 的 逆 定 理 。 我 们 要 证 明 , 对 任何 满足 4 一 0 的 (2 下 ,n) 码 
序列 , 必 有 R 三 C。 如 果 最 大 误差 概率 趋 于 0, 那么 这 个 码 序列 的 平均 误差 概率 也 趋 于 0， 即 
A -> 0 Be PO +0, 其 中 PO 的 定义 见 式 (7-32)。 对 固定 的 编码 规则 X"(-) 和 固定 的 译 码 规 
WW = gY), RIA W> X(W) > Y> W., 对 每 个 n, 设 下 服从 11,2,…,2 下 | 上 的 一 个 


均匀 分 布 。 由 于 W 服从 均匀 分 布 , BPW AW) = PO = Se ao Bll, 


nR = H(W) (7-98) 
SHC W|W)+ IW; W) (7-99) 
244+ POnaR + 1(W;W) (7-100) 
214 PO AR + I(X;Y”) (7-101) 
244 PO nR + nC (7-102) 


其 中 , (a) 由 WW 服从 行 ,2,… ,2 中 | 上 的 均匀 分 布 假设 推出 ,(b) 是 一 个 恒等式 , (c) 是 由 于 WB 
多 可 取 2 必 个 值 而 获得 的 费 诺 不 等 式 ,(d) 为 数据 处 理 不 等 式 , 而 (e) 由 引 理 7.9.2 推出 。 两 边 同 
Bn, 得 到 


R< P®R + 1 +C (7-103) 
现在 令 ”~>co,， 则 不 等 式 右边 的 前 两 项 趋 于 0, 因此 


YQ 
© 
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R<C (7-104) 
可 以 将 式 (7-103) 改 写 为 
n ~£_ 1 
P1 RW (7-105) 


BREW, 4ROCH, 对 充分 大 的 n, 误差 概率 无 法 接近 于 0( 从 而 对 所 有 的 n 都 是 成 立 的 , 因 
为 如 果 对 小 的 POO =0, 那么 通过 串联 这 些 码 来 构造 对 大 的 n 也 满足 P4"… = 0 的 码 )。 因 此 ， 
当 码 率 大 于 容量 时 , 不 可 能 达到 任意 低 的 误差 概率 。 口 

上 述 逆 定 理 有 时 称 作 信道 编码 定理 的 弱 逆 定理 (weak converse)。 也 可 以 证 明 一 个 强 逆 定理 
(strong converse), 它 说 明 当 码 率 大 于 容量 时 , 误差 概率 以 指数 级 趋 于 1。 因 此 , 信道 容量 很 明显 
是 一 个 分 界 点 一 一 当 码 率 小 于 容量 时 , 以 指数 级 有 POYO>0; 而 当 码 率 大 于 容量 时 ,以 指数 级 有 
P>. 


7.10 ”信道 编码 定理 的 逆 定 理 中 的 等 式 


我 们 已 经 证 明了 信道 编码 定理 和 它 的 逆 定 理 。 从 本 质 上 讲 , 这 些 定理 表明 当 尺 <C 时 , 可 以 
以 任意 低 的 误差 概率 传输 信息 ; 而 当 ROCK, 误差 概率 将 远离 0。 

探讨 逆 定 理 中 的 等 式 成 立 的 结果 是 一 件 很 有 趣 而 且 有 价值 的 事情 , 这 有 望 启发 我 们 找 出 达 
到 信道 容量 的 编码 。 在 P.=0 的 情况 下 , 重复 北 定 理 中 的 步 又 , 我们 有 


aR = H(W) . | (7-106) 
= H(W| W)+ 1(W;W) (7-107) 
= I(W;W)) (7-108) 
ŽI (wW); Y") (7-109) 
= H(Y") - HOY” | X”) (7-110) 
= H(Y") - DHO: 1 X,) (7-111) 
SYAY) - DA | X;) (7-112) 
= > I(X;; Yi) (7-113) 
en (7-114) 


RAX ICY? X"(W)| W) =O WR CX"; YW) =O BY, 数据 处 理 不 等 式 (a) 中 的 等 号 才 成 立 。 
如 果 所 有 码 字 都 不 同 , 而 且 久 是 译 码 的 一 个 充分 统计 量 , 这 是 成 立 的 。 只 有 当 Y; 相互 独立 时 ， 
(b) 中 等 式 才能 成 立 ; RAY X 的 分 布 是 p* (xz) 时 , 即 达 到 信道 容量 的 X 上 的 分 布 时 ，(c) 中 等 
式 才能 成 立 。 所 以 ,只 有 当 所 有 这 些 条 件 都 满足 时 , 才能 得 到 逆 定 理 中 的 等 式 。 这 说 明 对 于 达到 
信 道 容 量 的 等 误差 码 ， 其 码 字 必须 互 不 相同 , 且 所 有 Y; 的 分 布 i.i.d. 服从 


p*(y) = 2p (x) p(y | x) (7-115) 


这 是 由 X 的 最 优 分 布 导出 的 了 分 布 。 在 道 定理 中 涉及 到 的 分 布 是 由 码 字 上 的 均匀 分 布 诱导 出 的 
X 和 YY 的 经 验 分 布 , 即 


p(xi, yi) = sak 2 I(Xi(w) = x;) ply; | Zz;) (7-116) 
我 们 可 以 用 一 些 达 到 信道 容量 的 编码 例子 来 检验 这 一 结果 : 
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1. 有 噪声 打字 机 信道 。 此 时 , 输入 字母 表 是 由 26 个 英文 字母 构成 的 , 每 一 个 字母 能 够 正确 
地 输出 , 或 者 变 为 下 一 个 字母 的 概率 均 是 12。 达 到 信道 容量 (log13 比特 ) 的 一 个 简单 码 
是 使 用 间隔 的 输入 字母 ,这样 就 不 会 使 两 个 字母 相互 混淆 。 此 时 ,就 有 了 13 个 分 组 长 度 
为 1 的 码 字 。 如 果 挑 选 出 其 中 一 些 码 字 的 i.i.d 服从 11,3,5,7,…,25|1 上 的 均匀 分 布 , BB 
么 正如 我 们 所 期 望 的 , 这 个 信道 的 输出 也 是 i.i.d. 服从 {1,2,… ,26|} 上 的 均匀 分 布 。 

2. 二 元 对 称 信道 。 由 于 对 给 定 任意 输入 序列 , 每 一 个 可 能 的 输出 序列 都 具有 正 的 概率 ,所 
以 即使 只 有 两 个 码 字 也 不 可 能 以 零 误差 概率 区 分 开 它 们 。 故 BSC 的 零 误 差 容 量 是 0。 然 
而 , 即使 在 这 种 情况 下 , 还 是 可 以 得 出 一 些 有 用 的 结论 。 有 效 码 仍然 可 以 导出 关于 Y 的 


分 布 ,使 得 Y 看 起 来 是 i.i.d. 服从 Bemoulli( $ )o 3E, 从 逆 定 理 的 证 明 中 也 可 以 看 出 ， 


当 码 率 接近 信道 容量 时 , 利用 对 应 于 码 字 的 译 码 集 , 已 经 几乎 完全 覆盖 了 所 有 可 能 的 输 
出 序列 的 集合 。 当 码 率 大 于 信道 容量 时 , 译 码 集 变 得 相互 重 羡 ,并 且 误 差 概 率 不 可 能 再 
任意 小 。 


7.11 汉 明 码 


信道 编码 定理 使 用 分 组 码 的 方案 。 如 果 分 组 长 度 足 够 大 的 话 ， 当 码 率 小 于 信道 容量 时 , 可 以 
用 分 组 码 以 任意 低 的 误差 概率 传输 信息 。 自 香农 开创 性 的 论文 [471] 问 世 以 来 ,人们 一 直 在 寻找 
这 样 的 码 。 除 了 要 达到 低 的 误差 概率 之 外 , 实用 的 编码 应 该 是 “简单 的， 以 保证 它们 可 以 有 效 地 
编码 和 译 码 。 

自 香农 1948 年 开创 性 的 论文 发 表 以 来 , 为 了 寻找 简单 而 优秀 的 编码 工作 已 经 持续 了 很 长 的 
时 间 。 在 寻找 的 过 程 中 ,人 们 发 展 出 了 一 套 完 整 的 编码 理论 。 我 们 无 法 逐一 描述 自从 1948 年 以 
来 所 发 明 的 众多 精致 而 且 复 杂 的 编码 方案 。 在 这 里 仅 介 绍 由 汉 明 开发 的 一 种 最 简单 的 方案 
[266]。 它 可 以 说 明 大 多 数码 所 共有 的 一 些 最 基本 的 思想 。 

编码 的 目的 是 通过 增加 宛 余 使 得 在 一 些 信 息 损 失 或 者 损坏 的 情况 下 仍 可 能 由 接收 者 恢复 出 
原始 的 消息 。 最 显而易见 的 一 种 编码 方案 是 重复 信息 。 例 如 , 为 发 送 一 个 1, 我 们 发 送 11111 , 为 
发 送 一 个 0, 我 们 发 送 00000。 这 一 方案 使 用 5 个 字符 来 传输 1 比特 , 因此 码 率 为 1/5 比特 /字符 。 
如 果 在 二 元 对 称 信道 中 使 用 这 样 的 码 , 最 优 的 译 码 方案 就 是 将 接收 到 的 每 个 5 比特 分 组 译 为 其 
中 占 多 数 的 比特 。 如 果 3 个 或 者 更 多 的 比特 是 1, 我 们 则 将 这 个 分 组 译 为 1; 否则 将 其 译 为 0。 当 
且 仅 当 超 过 3 个 比特 发 生 改 变 时 , 才 会 出 现 错误 。 通 过 使 用 更 长 的 重复 码 , 可 以 达到 任意 小 的 误 
差 概率 。 但 是 , 随 着 分 组 长 度 的 增加 , 码 率 也 趋 于 0, 因此 , 一 个 “简单 的 "编码, 不 一 定 是 一 个 非 
常 实用 的 编码 。 

替代 这 种 简单 的 重复 比特 方法 ,可 以 用 某 种 巧妙 的 方式 将 比特 联合 起 来 , 使 得 每 一 个 额外 的 
比特 都 可 以 用 来 检验 某 个 信息 比特 子 集中 是 否 发 生 错误 。 一 个 简单 的 例子 就 是 奇偶 校 验 码 。 从 
n 一 1 个 信息 比特 的 分 组 出 发 , 选取 第 ”个 比特 , 使 得 整个 分 组 的 奇偶 校 验 数 为 0( 分 组 中 1 的 个 
数 为 偶数 )。 这 样 ， 如果 在 传输 过 程 中 发 生 了 奇数 次 错误 , 那么 接收 者 将 能 够 注意 到 奇偶 性 的 变 
化 , 并 察觉 到 错误 。 这 是 检 错 码 (error-detecting code) 的 最 简单 的 例子 。 该 编码 既 不 能 察觉 到 出 现 
偶数 次 错误 , 也 不 能 提供 任何 有 关 纠 正 这 些 错误 的 信息 。 

我 们 可 以 推广 奇偶 校 验 的 思想 , 允许 存在 多 个 奇偶 校 验 位 , 也 可 以 允许 奇偶 校 验 依赖 于 各 种 
各 样 的 信息 比特 子 集 。 下 面 将 描述 的 汉 明 码 是 奇偶 校 验 码 的 一 个 例子 。 利 用 线性 代数 中 的 一 些 
简单 思想 来 描述 它 。 i 

为 说 明 汉 明 码 的 基本 思想 , 考虑 分 组 长 度 为 7 的 二 元 码 。 所 有 的 运算 都 是 模 2 运算 。 考 虑 所 
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有 长 度 为 3 的 非 0 二 元 向 量 的 集合 ,以 它们 为 列 向 量 构 成 一 个 矩阵 : 
0001111 
H=|0 110011 
1010101 
考虑 H HPZ HAREA 000 的 向 量 ) 中 长 度 为 7 的 向 量 的 集合 。 由 线性 空间 理论 , A 
AH WEA 3, 故 期 望 H 的 零 空 间 的 维 数 为 4。 这 2 个 码 字 如 下 
0000000 0100101 1000011 1100110 
0001111 0101010 1001100 1101001 
0010110 0110011 1010101 1110000 
0011001 0111100 1011010 1111111 
由 于 这 个 码 字 集 是 矩阵 的 零 空 间 ， 所 以 从 任意 两 个 码 字 的 和 仍 是 一 个 码 字 的 意义 上 看 , 这 是 
线性 的 。 因 此 , 码 字 集 形 成 7 维 向 量 空间 中 的 一 个 4 维 线性 子 空间 。 
观察 这 些 码 字 , 不 难 注意 到 除了 全 是 0 的 码 字 外 , 任何 码 字 中 1 的 最 小 数目 为 3。 该 最 小 数 
称 为 码 的 最 小 重量 (minimun weight)。 可 以 看 出 , 由 于 互 的 所 有 列 互 不 相同 ,没有 两 列 的 和 可 以 
为 000, 因此 码 的 最 小 重量 至 少 为 3。 基于 任意 两 列 的 和 必然 为 该 矩阵 中 某 一 列 的 事实 , 我 们 可 
以 推出 最 小 距离 恰好 为 3。 . 
由 于 该 码 是 线性 的 , 任意 两 个 码 字 的 差 仍 是 一 个 码 字 , 因此 , 任意 两 个 码 字 之 间 至 少 在 3 个 
位 置 上 有 所 不 同 。 两 个 码 字 不 同 的 最 小 位 置 数 称 为 该 码 的 最 小 距离 (minimum distance)。 码 的 最 
小 距离 是 用 来 表示 码 字 之 间 相 隔 多 远 的 一 个 度量 , 并 且 可 以 决定 在 信道 的 输出 端 码 字 之 间 差 异 
的 程度 。 对 线性 码 来 说 , 最 小 距离 等 于 最 小 重量 。 我 们 的 目的 是 设计 出 最 小 距离 尽 可 能 大 的 码 。 
上 述 码 的 最 小 距离 是 3。 因 此 , 如 果 码 字 c 仅 占 一 个 位 置 损坏 , 那么 产生 的 新 字符 串 将 与 其 
他 任何 码 字 之 间 至 少 在 两 个 位 置 上 是 不 同 的 , 它 与 c 更 加 接近 。 但 是 , 是 否 可 以 不 通过 穷 举 搜索 
就 可 以 发 现 哪 一 个 是 距离 最 近 的 码 字 呢 ? 
回答 是 肯定 的 , 可 以 利用 矩阵 H 的 结构 译 码 。 和 矩阵 H PRE 4 1B RB HE FF (parity check 
matrix) 并 具有 如 下 性 质 : 对 任意 码 字 e 均 有 He=0. Ke 是 第 ; 个 位 置 为 1 其 余 位 置 为 0 的 向 
量 。 如 果 码 字 的 第 i 个 位 置 损坏 , 则 接收 到 的 向 量 为 r=e+ ei。 如 果 将 矩阵 H 与 这 个 接收 到 的 
向 量 相 乘 ， 则 得 到 


(7-117) 








Hr= 万 (c+ei)= He+ He; = He; (7-118) 
这 正好 是 HOBIE, Alb, 通过 计算 Hr, 就 可 以 发 现 接 收 向 量 的 哪 一 个 位 置 损坏 了 。 还 
原 该 位 置 上 的 值 就 得 到 一 个 码 字 。 这 样 就 有 了 一 个 简单 的 程序 用 来 纠正 接收 序列 中 的 一 个 错误 。 
我 们 已 经 构造 出 分 组 长 度 为 7 的 16 个 码 字 组 成 的 码 籍 ,， 它 能 纠正 至 多 一 个 错误 。 这 个 码 就 是 汉 
明码 (Hamming code) o 
至 此 , 我 们 还 没有 给 出 一 个 简单 的 编码 程序 ; 可 以 考虑 16 条 消息 的 集合 到 码 字 集合 的 映射 。 
但 是 , 当 仔 细 检 查 表 中 所 有 码 字 的 前 4 位 之 后 , 将 会 观察 到 它们 正好 构成 了 4 个 比特 的 所 有 2 种 
组 合 。 于 是 , 可 以 将 这 4 个 比特 看 作 是 要 发 送 消息 的 4 个 比特 , 而 另 3 个 比特 由 编码 决定 。 对 于 
一 般 情形 , 将 线性 码 进行 修改 , 可 以 使 得 映射 更 加 明显 : 让 码 字 中 的 前 & 个 比特 代表 消息 , 而 后 
面 n 一 个 比特 留 作 奇 偶 校 验 位 。 这 样 得 到 的 编码 称 作 系统 码 (systematic code). 该 码 往 往 由 它 
的 分 组 长 度 n, 信息 比特 数 以 及 最 小 距离 d 三 个 参数 来 确定 。 例 如 ,上述 编码 称 作 (7,4,3) 汉 
明码 , 即 n=7, k=4 和 d=3。 
可 以 利用 简单 的 文 氏 图 (Venn Diagram) 表 示 来 解释 汉 明 码 的 工作 原理 。 考 虑 如 下 文 氏 图 , € 
有 三 个 圆 和 四 个 相交 区 域 , 如 图 7-10 所 示 。 为 了 发 送信 息 序列 1101, 将 序列 中 的 4 个 信息 比特 
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分 别 放 在 图 中 四 个 相交 的 区 域 中 。 然 后 在 三 个 剩余 的 区 域 中 各 放置 一 个 校 验 位 使 得 每 个 圆 中 的 
校 验 为 偶数 ( 即 每 个 圆 中 有 偶数 个 1) 。 于 是 , 校 验 位 就 变 成 如 图 7-11 中 所 示 。 

现在 不 妨 设 其 中 的 一 个 比特 被 改变 了 。 例 如 , 图 7-12 中 有 一 个 信息 比特 从 1 ERT 0。 此 
时 , 有 两 个 圆 违背 了 原先 的 校 验 约束 (图 中 加 黑 部 分 )。 因 而 ， 当 我 们 知道 了 这 两 个 约束 违背 , 不 
难看 出 , 导致 产生 约束 违背 的 这 个 单一 的 比特 错误 只 可 能 在 两 圆 的 相交 部 分 发 生 ( 即 改变 的 那个 
比特 )。 类 似 地 , 通过 分 析 其 他 情形 ,也 不 难看 出 , 这 种 码 可 以 检测 并 纠正 发 生 在 接收 到 码 字 中 
的 任何 单个 比特 错误 。 


(\ 企 企 
g C g 
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图 7-10 信息 比特 的 文 氏 图 图 7-11 每 个 圆 的 信息 比特 与 图 7-12 一 个 信息 比特 改变 
带 偶 校 验 的 校 验 位 的 文 氏 图 后 的 文 氏 图 


很 容易 推广 这 一 程序 来 构造 更 大 的 矩阵 吾 。 一 般 来 说 ,如 果 使 用 矩阵 HHR íT, 那么 所 
得 编码 的 分 组 长 度 为 =2:-1,&=2 -1 -1, 以 及 最 小 距离 为 3。 所 有 这 些 码 都 称 作 汉 明码 , 并 
可 以 纠正 一 个 错误 。 

汉 明 码 是 所 有 线性 奇偶 校 验 码 中 最 简单 的 例子 。 通 过 汉 明 码 说 明了 构造 其 他 线性 码 的 基本 原 
则 。 但 是 ， 当 分 组 长 度 较 大 时 , 分 组 中 很 可 能 会 出 现 不 止 一 个 错误 。 在 20 世纪 50 年 代 早 期 , 里 德 
(Reed) 和 所 罗 门 (Solomon) 针 对 非 二 元 信道 , 发 明了 一 类 多 重 纠 错 码 。20 世纪 50 年 代 后 期 ，Bose， 
Ray-Chaudhuri [72] 和 Hocquenghem [278] 利 用 伽 罗 瓦 (Galois) 域 论 推 广 了 汉 明 码 的 思想 ， 从 而 构造 出 
针对 任意 上 的 上 纠 错 码 ( 称 作 BCH 码 )。 自 那 时 起 , 许多 作者 开发 出 了 许多 其 他 的 编码 以 及 这 些 码 
的 有 效 译 码 算法 。 随 着 集成 电路 技术 的 发 展 , 现在 已 经 可 以 在 硬件 中 实施 相当 复杂 的 编码 , 并 且 
能 够 部 分 实现 香农 的 信道 容量 定理 中 所 预言 的 纠 错 能 力 。 例 如 , 所 有 CD 播放 器 都 配置 有 基于 两 个 
交织 的 (interleaved) (32,28,5) 和 (28,24,5)R-S 码 的 纠 错 电路 , 可 以 纠正 大 约 4000 个 脉冲 错误 。 

上 面 描述 的 所 有 码 都 是 分 组 码 (block code) 一 一 将 一 组 信息 比特 映射 成 一 个 信道 码 字 , H 
不 依赖 于 过 去 的 信息 比特 。 也 可 以 设计 出 这 样 的 码 : 每 个 输出 组 不 仅 依 赖 于 当前 的 输入 组 ， 
而 且 依 赖 于 过 去 的 一 些 输入 组 。 这 种 码 的 一 个 高 级 结构 化 的 形式 称 作 卷 积 码 (convolutional 
code)。 卷 积 码 理论 在 过 去 的 40 年 里 得 到 了 相当 大 的 发 展 。 这 里 不 再 深入 讨论 , 但 是 有 兴趣 
的 读者 可 以 参考 编码 理论 的 教科 书 [69,356] 。 

在 设计 出 的 编码 算法 当中 ,经 历 了 很 多 年 ,没有 一 种 编码 算法 能 够 接近 香农 信道 容量 定 
理 中 所 给 出 的 界 。 对 一 个 交叉 概率 为 p 的 二 元 对 称 信道 , 我 们 需要 一 种 码 , 它 能 在 长 度 为 n 
且 占 n(1 一 矿 (p)) 个 信息 比特 的 分 组 中 纠正 多 达 np 个 错误 。 例 如 , 在 长 度 为 n 的 分 组 中 ， 
前 面 提 及 的 重复 码 可 以 纠正 多 达 nn 人 2 个 错误 ,但 是 它 的 码 率 随 着 n 的 增 大 而 趋 于 0。 在 1972 
年 以 前 , 对 于 能 够 在 长 度 为 n 的 分 组 中 纠正 na 个 错误 的 编码 ,它们 的 码 率 都 渐 近 于 0。 而 到 
1972 Æ, Justesen [301] 设 计 出 了 一 类 码 ,具有 正 的 渐 近 码 率 和 正 的 渐 近 最 小 距离 ,并且 都 与 
分 组 长 度 成 正比 。 
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均匀 分 布 时 , 有 


到 了 1993 Æ, Berrou 等 人 在 文章 [57] 中 提出 了 下 列 观 点 : 将 两 个 交织 卷 积 码 与 一 个 并 
行 协作 的 译 码 器 组 合 起 来 能 获得 远 比 此 前 任何 码 更 好 的 效果 。 每 个 译 码 器 将 自身 对 每 个 比 
特 值 的 “意见 "反馈 给 男 一 个 译 码 器 , 并 利用 该 译 码 器 的 意见 来 帮助 确定 自身 的 这 个 比特 值 。 
这 种 迭代 过 程 不 停 地 重复 , 直到 两 个 译 码 器 都 对 比特 的 取 值 达成 共识 为 止 。 令 人 惊讶 的 是 ， 
这 个 和 迭代 程序 对 于 许多 信道 都 能 在 接近 于 容量 的 码 率 下 进行 有 效 地 译 码 。 这 也 重新 提升 了 
学 者 们 对 Robert Gallager 在 其 学 位 论文 [231, 232] 中 引入 的 低 密度 奇偶 性 校 验 (low-density 
parity check，LDPC) 码 的 研究 兴趣 。1997 Æ, MacKay 与 Neal [368] 证 明了 对 于 LDPC 码 ， 
迭代 的 消息 传输 算法 (类 似 于 用 来 译 解 turbo 码 的 算法 ) 可 以 使 码 率 以 很 高 的 概率 达到 信道 容 
量 。 至 今 , turbo 码 与 LDPC 码 仍然 是 研究 的 热点 , 并 且 应 用 在 无 线 通 信和 卫星 通信 信道 中 。 


7.12 反馈 容量 


带 反馈 的 信道 如 图 7-13 所 示 。 假 定 所 有 接收 到 的 字符 立即 以 无 噪声 的 方式 传输 回 发 送 
者 , 这 样 , 发送 者 可 以 利用 它们 来 决定 下 面 将 要 发 送 哪 一 个 字符 。 反 馈 会 给 我 们 带 来 好 处 
吗 ? 令 人 吃惊 的 是 , 回答 为 否定 。 现 在 来 证 明 。 我 们 把 (2 中 ,nn) 反 馈 码 (feedback code) 定 义 
为 一 个 映射 序列 W, YY!) 和 一 个 译 码 函 数 序列 g :7 一 11,2,… ,2 下 |, 其 中 zx; BRS 
E WE2 中 和 先前 接收 到 的 值 Yi, Y，，…,Y;_1 的 函数 。 于 是 , 当 W 服从 {1,2,… ,2 中 1 上 的 





图 7-13 ” 带 反 馈 的 离散 无 记忆 信道 
PS) =Prig(Y")AW} (7-119) 
定义 ”离散 无 记忆 信道 的 带 反 馈 容量 Coy (capacity with feedback) 定 义 为 反馈 码 可 以 达到 的 
所 有 码 率 的 上 确 界 。 
定理 7.12.1( 反 馈 容量 ) 


Crp = C=maxI(X;Y) (7-120) 

证 明 : 由 于 非 反馈 码 是 反馈 码 的 特例 , 不 带 反 馈 能 够 达到 的 任何 码 率 也 可 以 通过 带 反馈 的 方 

式 达 到 , 因此 

Crp C (7-121) 

证 明 相 反 的 不 等 式 稍微 复杂 一 些 。 无 法 再 直接 使 用 证 明 不 带 反 馈 的 编码 逆 定理 中 给 出 的 方法 。 

由 于 X, 依赖 于 过 去 接收 到 的 字符 , 引 理 7.9.2 不 再 成 立 , 而 且 式 (7-93) 中 的 结论 ( 即 OY, 仅 依赖 
FX; 且 条 件 独 立 于 未 来 的 X 的 结论 ) 也 不 再 成 立 。 

BE, 只 要 经 过 简单 的 修改 , 原来 的 方法 依然 起 作用 ; 取代 X", 我 们 使 用 下 标 W, 则 可 以 证 

明 类 似 的 系列 不 等 式 。 设 更 服从 并 ,2,… ,2 中 ] 上 的 均匀 分 布 , 则 Pri WW = Pi", 根据 费 诺 

不 等 式 和 数据 处 理 不 等 式 , 我 们 有 

nR = H(W)=H(W|W)+1(W;W) (7-122) 

<1+PnR+1(W;W) (7-123) 

<1+ PO nR + I(W; Y”) (7-124) 
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下 面 我 们 可 以 估计 I(W; YAR: 


I(W; Y") = H(Y)- H(Y”| W) (7-125) 
= H(¥") - DH Y, | Yi, Yours 有) (7-126) 
= H(Y) - PH Y; 1 Yi, Yours Yas W, X;) (7-127) 
= HO) - HCY | X;) (7-128) 


这 是 由 于 X; 是 关于 Yi Ya2，…， Yi 和 W 的 函数 ; 以 及 在 给 定 X 的 条 件 下 ，Y; 独立 于 W AY 的 
过 去 样本 。 由 离散 无 记忆 信道 容量 的 定义 , 我 们 可 以 得 到 


ICW; Y") = HCY") - XHY; | X,) (7-129) 
< PHY) - YHOO X) (7-130) 
= DIX Y) (7-131) 
< nC (7-132) 
综合 上 述 , 可 得 
nR< PnR+1+nC (7-133) 
两 边 同 时 除 以 n 并 令 n 一 2, 得 到 
R<C (7-134) 
于 是 , 使 用 反馈 并 不 能 带 给 我 们 更 高 的 码 率 , 即 
C=C (7-135) 0 


正如 我 们 在 二 元 擦 除 信道 的 例子 中 看 到 的 那样 , 反馈 在 简化 编码 和 译 码 方面 可 以 起 到 很 大 
的 作用 。 然 而 , 它 并 不 能 增加 信道 的 容量 。 


7.13 信和 源 信 道 分 离 定理 


现在 是 将 已 经 证 明 的 两 个 主要 结果 结合 在 一 起 的 时 候 了 : AEEA H: 定理 5.4.2) 和 和 
数据 传输 (R<C: 定理 7.7.1)。 为 了 通过 信道 传输 信 源 , 条 件 H<C 是 充分 必要 的 吗 ? 例如 ， 
考虑 通过 离散 无 记忆 信道 传输 数字 语音 或 音乐 。 设 计 一 个 码 将 语音 样本 序列 直接 映射 成 信道 的 
输入 信号, 或 者 先 将 语音 压缩 成 最 有 效 的 格式 , 然后 使 用 适当 的 信道 编码 从 该 信道 将 它 发 送出 
去 。 由 于 数据 压缩 不 依赖 于 信道 , 而 信道 编码 又 不 依赖 于 信 源 分 布 , 因此 , OR RI 
法 , 我 们 并 不 十 分 清楚 会 不 会 损失 一 些 信息 。 

在 这 节 中 我 们 将 证 明 : 在 有 噪声 信道 中 ,两 步 又 方法 与 其 他 传输 信息 的 方法 一 样 有 效 。 该 结 
果 有 一 些 重 要 的 实际 应 用 。 这 意味 着 可 以 将 通信 系统 的 设计 转化 成 信 源 编码 与 信道 编码 两 个 部 
分 的 组 合 。 为 数据 最 有 效 的 表达 设计 信 源 码 , 也 能 够 分 离 独立 地 设计 适合 于 信道 的 信道 码 。 这 
种 组 合 的 方法 与 将 两 个 问题 一 起 考虑 所 能 设计 出 的 任何 方法 一 样 有 效 。 

数据 的 通常 表示 是 使 用 二 元 字母 表 。 最 现代 的 通信 系统 是 数字 化 的 , 并 且 为 了 能 在 通常 的 
信道 上 传输 , 数据 简化 为 二 进 制 表示 。 这 使 复杂 度 大 大 减 小 。 像 ATM 和 因特网 这 样 的 网 络 系 统 
人 允许 语音 、 视 频 和 数字 数据 共用 相同 的 通信 信道 。 

两 步骤 处 理 与 任何 一 步 又 处 理 都 一 样 有 效 。 虽 然 这 一 结论 看 上 去 是 那么 显然 , 但 有 必要 提 
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醒 读者 , 这 未 必 总 是 正确 的 。 例 如 , 在 某 些 多 用 户 信道 中 , 这 种 分 解 是 不 可 行 的 。 我 们 也 将 考虑 
两 个 简单 的 情形 , 这 时 定理 看 上 去 会 有 误导 性 。 简 单 的 例子 是 通过 擦 除 信道 发 送 英 文 文本 。 首 
先 找 出 文本 最 有 效 的 二 进 制 表示 , 然后 通过 信道 发 送 它 。 这 时 , 发 生 的 错误 将 很 难 译 码 。 如 果 直 
接 发 送 这 个 英文 文本 , 虽然 会 损失 大 约 一 半 的 字母 , 但 仍然 可 以 知道 文本 的 含义 。 类 似 地 ， 人 类 
的 耳 朱 有 一 些 非 同 寻常 的 能 力 , 如 果 噪 声 是 白色 的 , 可 以 在 非常 高 的 噪声 水 平 下 分 辨 出 语音 。 在 
这 种 情况 下 , 直接 通过 有 噪声 信道 发 送 未 被 压缩 的 语音 会 比 发 送 压缩 的 语音 更 加 合适 。 明 显 地 ， 
信 源 中 的 宛 余 适 应 于 信道 。 
现在 对 上 述 问题 做 个 严格 的 定义 。 假 设 有 一 个 信 源 V, 从 字母 表 Y 中 生成 字符 。 对 于 由 V 
生成 的 随机 过 程 , 除了 要 求 其 取 值 于 有 限 字 母 表 且 满 足 AEP 之 外 , 不 做 任何 假设 。 这 种 过 程 的 
例子 包括 独立 同 分 布 的 随机 变量 序列 和 平稳 不 可 约 马尔 可 夫 链 的 状态 序列 。 任 何平 稳 遍 历 信 源 
均 满足 AEP, 这 将 在 6.8 节 中 证 明 。 
现在 想 通过 信道 发 送 字符 序列 VY = Vi, Vae, Va 并 且 保 证 接收 者 可 以 重 构 序 列 。 为 了 
达到 这 个 目的 , 将 序列 映射 成 码 字 X"( WV ), 通过 信道 发 送 这 个 码 字 。 接 收 者 观察 接收 到 的 序 
WY UR, 给 出 发 送 序列 VE, MR VAY, 则 接收 者 犯 了 错误 。 我 们 定义 误差 概率 为 
Pr(V? Æ V”) = 之 Div") p(s" | x"(v")) Igy") Fv") (7-136) 


其 中 I ARERR, oy") BRK. RPA 7-14 所 示 。 





图 7-14 联合 信 源 信道 编码 


下 面 给 出 联合 信 源 信道 编码 定理 : 

定理 7.13.1( 信 源 信道 编码 定理 ) 如 果 Vi, Ve, V, 为 有 限 字 母 表 上 满足 AEP 和 H(V)< 
C 的 随机 过 程 , 则 存在 一 个 信 源 信道 编码 使 得 误差 概率 Pr( fm 天 由 )->0。 反 之 ,对 任意 平稳 随 
hiti, 如果 H(V)>C, 那么 误差 概率 远离 0, 从 而 不 可 能 以 任意 低 的 误差 概率 通过 信道 发 送 这 
个 过 程 。 

证 明 ; 可 达 性 。 证 明 前 半 部 分 的 精 角 就 是 此 前 描述 的 两 步骤 编码 。 由 于 已 经 假定 随机 过 程 
满足 AEP, 所 以 必然 存在 一 个 元 素 个 数 志 27HVY)+ 中 的 典型 集 A, 它 拥 有 概率 的 绝 大 部 分 。 仅 
对 属于 这 个 典型 集 的 信 源 序列 进行 编码 ; 其 余 所 有 序列 将 产生 一 个 错误 。 它 对 误差 概率 的 贡献 
不 会 超过 eo 

A” 中 的 所 有 序列 加 上 下 标 。 由 于 至 多 有 2"H#+ 中 个 这 样 的 序列 , n H + e) 比 特 足以 给 出 
它们 的 下 标 了 。 如 果 

HV)+e=R<C (7-137) 
我 们 能 以 小 于 e 的 误差 概率 将 需要 的 下 标 发 送 给 接收 者 。 接 收 者 可 以 通过 穷 举 典型 集 AM, # 
择 与 被 估计 下 标 相 应 的 序列 ， 从 而 重 构 出 VY。 这 个 序列 将 以 很 高 的 概率 与 传输 序列 相 一 致 。 具 
PUL, 对 充分 大 的 n, 我 们 有 
PK 天 加) 过 PIV EA™) + P(e YAV | VEA) (7-138) 
<ete=2e (7-139) 
因此 , 如果 
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H(V)<C (7-140) 
那么 对 充分 大 的 n, 我 们 能 够 以 低 的 误差 概率 重 构 出 序列 。 
逆 定 理 。 我 们 希望 证 明 , 对 于 任意 的 信 源 信道 码 序 列 | 
X"(V") Vn (7-141) 
ga ( Y¥") V2" (7-142) 
Pr( AV") 0 蕴含 结论 HV) Co X"(: ) BRA VER (也 许 是 随机 的 ) 码 字 分 配 ， 
gn(' ) 是 任何 译 码 函 数 ( 对 输出 序列 Y 的 估计 分 配 WV*)。 根 据 费 诺 不 等 式 , 必 有 


H( V| V< 14+ Pr( VÆ V" )logl V” | =1+ Pr( VW" V”) nlog lV | (7-143) 
因此 , 对 于 这 个 码 ， 

HV) SEM Va Va) a Va) (7-144) 

=H") (7-145) 

=TH(V I) +2100) (7-146) 

L(+ Pr OAV") nloglV |) + 21(V5 1") (7-147) 

LEG + PAV") nloglV1) + E(X"; Y”) - (7-148) 

LE + Pr Vlog! VI +C (7-149) 


FCP (a) AP a ee HE, (b) A REDER, (c) AMHR SR (AT Vo 
X "> 0" 构成 马尔 可 夫 链 ) 得 到 ，(d) 由 信道 的 无 记忆 性 得 出 。 令 n>, RNA PVF 
V")—>0, 因此 
HV)<C (7-150) 
于 是 , 我 们 能 够 通过 信道 传输 平稳 遍历 信 源 当 且 仅 当 它 的 粹 率 小 于 信道 容量 。 联 合 信 源 信 
道 分 离 定理 促 使 我 们 将 信 源 编码 问题 从 信道 编码 问题 中 独立 出 来 考虑 。 信 源 编码 器 试图 找到 信 
源 的 最 有 效 表 示 ， 而 信道 编码 器 编码 消息 要 具备 能 够 对 抗 信道 中 产生 的 噪声 和 错误 的 能 力 。 分 
离 定 理 表明 , 分 离 编码 器 (如 图 7-15) 与 联合 编码 器 (如 图 7-14) 能 够 达到 相同 的 码 率 。 





图 7-15 分 离 信 源 信道 编码 


由 此 结论 , 我 们 已 经 将 信息 论 中 的 两 个 基本 定理 (数据 压缩 与 数据 传输 定理 ) 联 系 在 了 
一 起 。 接 下 来 用 几 句 话 概括 这 两 个 结果 的 证 明 过 程 。 数 据 压缩 定理 来 源 于 AEP, 表明 全 部 信 
源 序列 存在 一 个 拥有 了 绝 大 部 分 概率 的 “小 型 "的 子 集 ( 大 小 为 2“), 根据 这 个 子 集 使 用 H 比 
特 / 字 符 并 以 很 小 的 误差 概率 来 表示 这 个 信 源 。 数 据 传输 定理 基于 联合 的 AEP; 它 依据 的 事实 
是 : 对 于 大 的 分 组 长 度 , 信道 的 输出 序列 非常 有 可 能 与 输入 码 字 是 联合 典型 的 , 而 任何 其 他 码 字 
是 联合 典型 的 概率 约 为 2-"。 居 而 , 我 们 可 以 使 用 大 约 2* 个 码 字 而 保持 可 忽略 的 误差 概率 。 信 
源 信道 分 离 定理 说 明 , 我 们 可 以 独立 地 设计 信 源 码 和 信道 码 , 然后 结合 两 者 的 结果 以 达到 最 优 的 
效果 。 


习题 


7.1 输出 的 预 处 理 。 如 果 一 个 统计 学 家 面 对 具有 转移 概率 为 p(y|z) 且 信道 容量 C= maxp(z) 
I(X,Y) 的 通信 信道 , 他 会 对 输出 做 出 很 有 帮助 的 预 处 理 : Y= g(Y), 并 且 断 定 这 样 做 能 
够 严格 地 改进 容量 。 
(a) 请 证 明 他 错 了 。 
(b) 在 什么 条 件 下 他 不 会 严格 地 减 小 容量 ? 
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7.2 


7.3 


7.4 


7.5 


7.6 


7.7 


7.8 


7.9 





可 加 噪声 信道 。 求 下 列 离散 无 记忆 信道 的 信道 容量 : 
Z 


o 


AP P(Z=0) =Pr|Z=a} =}. X 的 字母 表 为 Y= {0,1}。 假 设 Z 与 X 相互 独立 。 注意; 

信道 容量 依赖 于 a 的 取 值 。 

有 记忆 信道 具有 较 高 的 容量 。 考 虑 满足 Y = XOZ 的 二 元 对 称 信 道 , 其 中 由 表示 模 2 加 

法 运算 , H X,Y, Cc 10,1}. BEIZ 具有 常 边际 分 布 Prl2 =1=z=1-Pri2=0， 但 

Zi Zt, Z, 不 一 定 相 互 独立 。 假 定 Z 与 输入 X" 相互 独立 , C=1-H(p,1-p). WH 
max IT(Xi, Xs,, Xai Yis Yoo» Yn) = nCo 


Plays Ty z,) 


信道 容量 。 考 虑 离散 无 记忆 信道 Y=X+Z(mod 11), HH 


1, 2, 3 
1 1 





Z=|)4 1 1 

3° 3° 3 

WR XE10,1,2,…,101。 BE X,Z 相互 独立 , ABA 

(a) 求 出 该 信道 的 容量 。 

(b) 使 得 容量 最 大 化 的 p* (x) 是 什么 ? 

同时 使 用 两 个 信道 。 考 虑 信道 容量 分 别 为 Ci 与 C, 的 两 个 离散 无 记忆 信道 (Xi, p(yi| zi)， 

V) 5 (X2, p(ys|xz2) ,3)。 由 这 两 个 信道 可 以 构造 出 一 个 新 的 信道 (Xi1 x2, p(yi|zx1) X 

plyzl za), 71X22), 对 于 任何 zx1€EX1 UR r EX2, 这 个 新 的 信道 可 以 辣 时 发 送 它 们 并 且 

收 到 .y1，.y2o 计算 该 信道 的 容量 。 

RRP MA FH, BR 26 个 键 的 打字 机 。 

(a) 如 果 每 融 击 一 个 键 , 它 就 准确 地 输出 相应 的 字符 , 那么 该 容量 C 是 多 少 比 特 ? 

(b) 如 果 假 设 敲 击 一 个 键 都 会 导致 输出 该 键 对 应 的 字母 或 者 下 一 个 字母 等 概率 出 现 , 即 ， 
A 一 A 或 B,…,Z 一 Z 或 4。 那么 此 时 的 容量 如 何 ? 

(c) 对 于 (b) 中 所 述 的 信道 , 对 于 分 组 长 度 为 1 的 编码 的 最 高 码 率 是 多 少 ? 此 时 你 可 以 看 出 
该 编码 达到 0 误差 概率 。 . 

二 元 对 称 信 道 的 串联 。 如 下 是 ”个 完全 相同 的 独立 二 元 对 称 信 道 的 串联 示意 图 ， 

Xo->[BSG X,->--- X, -. >[BSd—x, 
其 中 每 个 信道 的 原始 误差 概率 为 po 证 明 该 串联 的 信道 等 价 于 具有 误差 概率 为 方 (1 -(1- 


25)") 的 一 个 二 元 对 称 信道 。 因 此 , 当 px40,1 时 , lim, .m1(Xo;X) =00 REE F Fei O 
XI1,X2，…,X，1 处 不 再 设置 编码 或 译 码 方案 ,于 是 该 串联 信道 的 容量 趋 近 于 0。 

Z 信道 。Z 信道 是 具有 二 元 输入 和 输出 字母 表 的 信道 , 其 转移 概率 p(y|x) 和 矩阵 如 下 : 
Q=-( Oo) xr,yE {0,1} 

求 Z 信道 的 容量 以 及 最 大 化 时 的 输入 概率 分 布 。 

次 优 码 。 对 于 习题 7.8 中 的 Z 信道, 假设 随机 选择 一 个 (2 下 ,n) 码 , 其 中 每 个 码 字 是 一 个 扫 
掷 均匀 硬币 的 序列 。 这 将 不 会 达到 容量 。 求 出 当 分 组 长 度 ”趋向 无 穷 时 , 使 得 误差 概率 
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Pl"M( 在 所 有 随机 生成 的 码 上 的 平均 ) 趋 向 0 的 最 大 码 率 R。 
7.10 零 误差 容量 。 假 设 某 信道 的 字母 表 为 10,1,2,3,41, 转移 概率 为 如 下 形式 
1⁄2 4 y=x+1(mod 5) 
0 ”否则 
(a) 计算 该 信道 的 容量 , 以 比特 为 单位 。 
(b) 信道 的 零 误差 容量 是 指 每 次 以 误差 概率 0 传输 信息 的 每 信道 比特 数量 。 显 然 , 该 五 元 


信道 的 零 误差 容量 至 少 是 1 比特 (传输 0 或 1 的 概率 均 为 二 。 找 出 一 个 分 组 码 来 说 明 
该 信道 的 零 误差 容量 大 于 1 比特 。 你 能 估计 出 该 零 误差 容量 的 精确 值 吗 ? (提示 : 考 
虑 该 信道 的 分 组 长 度 为 2 的 码 。)Lovasz 获得 了 该 信道 的 零 误差 容量 , 具体 可 以 参看 
Lovasz[ 365]. 
7.11 时 变 信 道 。 考 虑 一 个 时 变 离散 无 记忆 信道 。 
令 Yi, Yor, Ya 在 已 知 Xi, Xor Xa 的 条 件 下 是 条 件 独立 的 , 并 且 条 件 概率 分 布 为 p(y | x) 
一 Hay | Zi)o BX = (Xi, X253 Xa); Y= (Yi, V2.7, Vado 求 maxp(x) I(X;Y). 


lp, 


p(y|x)= 








0 


1 


i-p, 


7.12 未 使 用 字符 。 假 设 信道 的 转移 概率 矩阵 如 下 


2 1 
3 3 ° 
Paz = 4 1 1 (7-155) 
1 2 
0 3 3 
证 明 : 该 信道 容量 可 以 由 某 个 输入 字符 概率 为 0 的 输入 分 布 达 到 。 该 信道 容量 是 多 少 ? 并 
从 直观 上 解释 为 何 这 个 字符 没有 被 使 用 。 


7.13 ”二 元 信道 中 的 擦 除 与 出 错 。 考虑 一 个 既 有 擦 除 又 有 出 错 的 二 元 输入 信道 。 设 出 错 的 概率 为 
e, 擦 除 的 概率 为 a, 因此 , 信道 的 示意 图 如 下 : 


0 l-o-&€ 0 


l-o-é€ 
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7.14 


(a) 求 该 信道 的 容量 。 

(b) 当 该 信道 为 二 元 对 称 信道 时 (a = 0), 容量 为 多 少 ? 

(c) 当 该 信道 为 二 元 擦 除 信道 时 (e = 0), 容量 为 多 少 ? | 

字符 相依 信道 。 考虑 二 元 字母 表 上 的 信道 。 该 信道 接收 多 个 2 比特 字符 , 并 产生 一 个 2 比 

特 输出 , 确定 满足 映射 关系 如 下 : 00 -> 01,01 一 10,10 > 11 和 11 一 00。 WA, 如 果 信 道 

的 输入 为 2 比特 序列 01, 则 输出 为 10 的 概率 为 1。 EX, X 表示 两 个 输入 字符 ，Yi YR 

示 两 个 相应 的 输出 字符 。 

(a) 计算 互信 息 I(X1,X2; Y1, Yz)， 它 是 四 个 可 能 输入 对 上 的 输入 分 布 的 函数 。 

(b) 证 明 在 该 信道 上 传输 一 对 字符 的 容量 为 2 比特 。 

(c) 证 明 , 对 于 达到 信道 容量 的 最 大 化 输入 分 布 ,， 1(X1; Y1) = 0。 由 此 说 明 , 达到 容量 的 
输入 序列 分 布 不 一 定 同时 使 得 单个 字符 与 相应 输出 之 间 的 互信 息 达 到 最 大 值 。 

联合 典型 序列 。 如同 在 习题 3.13 中 计算 单个 随机 变量 的 典型 集 一 样 , 我 们 将 计算 由 二 元 

对 称 信 道 所 连接 在 一 起 的 一 对 随机 变量 的 联合 典型 集 , 以 及 针对 该 信道 的 联合 典型 译 码 

的 误差 概率 。 


0.9 


1 0.9 1 


设 二 元 对 称 信道 的 交叉 概率 为 0.1。 达 到 信道 容量 的 输入 分 布 为 均匀 分 布 ( 即 p(x) = 
(去 ,于 ) ,此 时 产生 的 联合 分 布 p(z,y) 为 





xX 0 1 
0 0.45 0.05 
1 0.05 0.45 


Y 的 边际 分 布 也 为 (十, 方 )。 


(a) 在 以 上 联合 分 布下 , 计算 H(X), HCY), H(X, Y) I(X;Y). 


(b) BE Xa, X25, X, X ini. IRDA Bernoulli £ ) 分 布 。 在 长 度 为 的 2" 个 可 能 的 输入 序列 中 ， 
哪些 是 典型 的 ( 即 。 = 0.2 BY, A(X) 中 的 元 素 )? ACY) 中 的 典型 序列 又 是 什么 ? 

(c) 联合 典型 集 APX, Y) 定义 为 满足 方程 组 (7-35) ~ (7-37) 的 序列 构成 的 集合 。 前 两 

个 方程 对 应 于 x" My DAF AL (X) A A4"(Y) 的 条 件 。 最 后 一 个 条 件 可 以 重新 

写 为 -十 ogp(zr,y) € (H(X, Y) - e, H(X, Y) +e)。 设 为 序列 x" 与 中 出 现 

差异 的 位 置 数目 ( 为 两 序列 的 函数 )。 因 此 ,我 们 有 
bz) = TL pla.) (7-156) 
= (0.45)""*(0.05)* (7-157) 


N 
N 
~ 


N 
oO 
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= ($)'a — p)” “pe (7-158) 
对 于 计算 上 述 概 率 值 , 另 一 种 做 法 是 将 二 元 对 称 信道 视 为 可 加 信道 Y= XOZ, 其 中 
Z 为 二 元 随机 变量 , 等 于 1 的 概率 为 p, 且 独 立 于 X。 此 时 ， 


pla", y") = p(a") p(y" 2") (7-159) 
= plz”) p( 2"! 2") (7-160) 
= p(x") p(2”) (7-161) 
=(4)"a~ pyre (7-162) 


证 明 (x”,y ) 是 联合 典型 的 条 件 等 价 于 x” 与 z" = y- a 都 是 典型 的 。 
(d) 现在 对 n=25, e=0.2, 计 算 A"(2Z) 的 大 小 。 如 习题 3.13, 含 & 个 1 的 序列 的 概率 





与 数目 一 览 表 如 下 : 

k W W#a- 一 二 gp(z) 
0 1 0.071790 0.152003 
1 25 0.199416 0.278800 
2 300 0.265888 0.405597 
3 2300 0.226497 0.532394 
4 12650 0.138415 0.659191 
5 53130 0.064594 0.785988 
6 177100 0.023924 0.912785 
7 480700 0.007215 1.039582 
8 1081575 0.001804 1.166379 
9 2042975 0.000379 1.293176 

10 3268760 0.000067 1.419973 
11 4457400 0.000010 1.546770 
12 5200300 0.000001 1.673567 


(在 表格 中 , 超过 12 个 1 的 序列 没有 列 出 , 因为 它们 的 总 概率 可 以 忽略 不 计 , 而 且 也 
不 在 典型 集中 。) 集 合 AY (2Z) 的 大 小 为 多 少 ? 

(e) 如 信道 编码 定理 的 证 明 中 所 述 , 考虑 信道 的 随机 编码 。 假 定 2 下 个 码 字 X (1)， 
X2), ,Xr'(2 中 ) 均 匀 取 自 长 度 为 n 的 可 能 二 元 序列 。 选 取 其 中 一 个 码 字 , 并 在 该 
信道 上 发 送 。 接 收 器 观察 接收 到 的 序列 , 并 试图 在 码 簿 中 找到 一 个 与 接收 的 序列 联合 
典型 的 码 字 。 如 上 所 述 , 这 对 应 于 找 出 一 个 码 字 X (G), BEY -— XG EAM (Z) 0 
对 于 固定 的 码 字 G), 使 (x*(i), 产 ) 为 联合 典型 的 接收 的 序列 Y 的 概率 为 多 少 ? 

(O 考虑 特定 的 接收 序列 站 = 000000…0。 假 定 在 长 度 为 n 的 所 有 2" 个 可 能 的 二 元 序列 
上 ,随机 均匀 地 选取 一 个 序列 EY。 选 取 的 序列 与 这 个 y 为 联合 典型 的 概率 是 多 少 ? 
(提示 : 这 等 于 使 得 y — 2" (4) C AW (Z) RIL SIA zx" 的 概率 。) 

(g) 现在 考虑 一 个 码 , 它 由 长 度 为 12 的 2 = 215 个 码 字 组 成 , 且 这 些 码 字 随 机 均匀 取 自 
所 有 长 度 为 n=25 的 2” 个 序列 。 称 其 中 的 一 个 码 字 对 应 于 i=1, 就 是 说 该 码 字 被 
选取 并 且 在 信道 上 被 发 送 。 如 (e) 中 计算 可 知 , 接收 到 的 序列 具有 很 高 的 概率 与 发 送 





信道 容量 133 


7.16 


7.17 








的 码 字 是 联合 典型 的 。 其 余 的 码 字 ( 一 个 或 更 多 , 随机 选择 且 独 立 于 已 发 送 的 码 字 ) 
与 接收 到 的 序列 是 联合 典型 的 概率 为 多 少 ? (提示 : 可 以 利用 联合 界 , 但 也 可 以 由 (f) 
中 的 结论 与 码 字 的 独立 性 精确 地 计算 出 这 个 概率 。) 
(h) 假定 一 个 码 字 被 发 送出 去 , 其 误差 概率 (平均 值 取 自信 道 的 概率 分 布 和 其 余 码 字 的 随 
机 选取 ) 可 以 写 为 
Pr( 误 差 | x"(1) 被 发 送 ) = D p(y 1 2"()) (7-163) 


:致使 产生 误差 的 > 


这 里 有 两 类 错误 : 如 果 接 收 到 的 序列 y 与 传输 的 码 字 不 是 联合 典型 的 , 就 会 产生 第 
一 类 错误 ; 如 果 存 在 另 一 个 码 字 与 接收 到 的 序列 是 联合 典型 的 , 就 会 产生 第 二 类 错 
误 。 利 用 前 面 的 结论 , 可 以 计算 出 这 个 误差 概率 。 由 随机 编码 的 对 称 性 可 知 , 这 个 值 
不 依赖 于 发 送 的 是 哪个 码 字 。 

以 上 计算 结果 表明 , 相对 于 交叉 概率 为 0.1 的 二 元 对 称 信道 而 言 , 该 信道 上 由 长 度 为 

25 的 512 个 码 字 组 成 的 随机 码 的 平均 误差 大 约 为 0.34。 这 个 值 看 起 来 非常 高 , 但 其 中 缘 

由 主要 是 因为 我 们 选取 的 AKT. BE AP 的 定义 中 选取 较 小 的 e 值 与 较 大 的 n 

值 , 那么 , 只 要 在 码 率 小 于 I(X;Y)-3e 的 条 件 下 , 就 可 以 使 误差 概率 变 得 要 多 小 就 能 

多 小 。 

同时 注意 到 , 习题 中 叙述 的 译 码 程序 并 不 是 最 优 的 。 最 优 的 译 码 程序 是 最 大 似 然 译 

码 ( 即 选取 与 接收 到 的 序列 最 接近 的 码 字 )。 如 果 对 最 大 似 然 译 码 方法 做 近似 处 理 , 就 可 

以 计算 出 随机 码 的 平均 误差 概率 。 这 里 的 方法 是 将 接收 到 的 序列 译 为 惟一 与 其 相差 < 4 

比特 的 码 字 , 否则 就 宣布 出 错 。 与 以 上 所 述 的 联合 典型 译 码 法 相 比 ， 当 码 字 等 于 接收 序 

列 时 情形 会 有 所 不 一 样 , 这 是 两 者 的 惟一 区 别 ! 可 以 证 明 , 这 个 译 码 方案 的 平均 误差 概 

率 大 约 为 0.285。 

编码 器 与 解码 器 作为 信道 的 一 部 分 。 考 虑 交叉 概率 为 0.1 的 二 元 对 称 信 道 。 对 于 这 个 信 

道 , 考虑 两 个 长 度 为 3 的 码 字 。 可 能 的 方案 是 将 消息 ai 编码 为 000, 将 消息 az 编码 为 

111。 对 此 编码 方案 , 进一步 将 编码 器 、 信 道 和 译 码 器 组 合 起 来 考虑 ,从 而 形成 一 个 新 的 

BSC, 其 两 个 输入 为 a, 和 as, 两 个 输出 也 为 al 和 azo 

(a) 计算 该 信道 的 交叉 概率 。 

(b) 该 信道 的 信道 容量 为 多 少 ?( 量 纲 为 比特 / 原 信道 传输 ) 

(c) 交叉 概率 为 0.1 的 原始 BSC 的 信道 容量 为 多 少 ? 

(d 证 明 下 面 关 于 信道 的 一 般 结论 ; 将 编码 器 、 信 道 和 译 码 器 组 合 考虑 , 形成 一 个 消息 到 
被 估计 消息 的 新 信道 , 这 种 方式 不 会 增加 信道 容量 ( 量 纲 为 比特 人 原 信道 传输 )。 

BSC 和 BEC 上 的 长 度 为 3 的 编码 。 在 习题 7.16 P, 对 于 交叉 概率 为 。 的 二 元 对 称 信道 ， 

我 们 设计 了 在 该 信道 上 发 送 长 度 为 3 的 两 个 码 字 000 和 111, 并 计算 了 这 个 编码 的 误差 概 

率 。 对 本 习题 , 我 们 取 es=0.1。 

(a) 对 于 此 信道 , 找 出 长 度 为 3 且 只 含 四 个 码 字 的 最 优 码 。 该 编码 的 误差 概率 为 多 少 ? 
(注意 , 所 有 可 能 的 接收 到 的 序列 都 必须 映射 为 可 能 的 码 字 。) 

(b) 如 果 使 用 长 度 为 3 的 所 有 8 个 可 能 的 序列 作为 码 字 , 那么 误差 概率 为 多 少 ? 

(c) 现在 考虑 擦 除 概率 为 0.1 的 二 元 擦 除 信道 。 若 使 用 两 码 字 编码 000 和 111, 则 接收 的 
序列 00E, 0E0, E00, OEE, EOE, EEO 可 能 都 将 译 为 0; 类 似 地 , 11E, 1E1, Ell, 1EE, 
E1E, EE1 都 译 为 1。 如 果 接 收 到 的 序列 是 EEE, 则 我 们 并 不 清楚 发 送 的 是 000 还 是 
111, Ali, 我 们 随机 地 选取 其 一 ,而 且 发 生 错 误 的 几率 各 占 一 半 。 请 问 , 对 于 这 样 的 
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7.20 


擦 除 信道 , 该 编码 的 误差 概率 为 多 少 ? 
(d) 对 于 (a) 和 (b)， 如 果 也 考虑 的 是 二 元 按 除 信道 , 那么 相应 编码 的 误差 概率 是 多 少 ? 
信道 容量 。 计 算 如 下 概率 转移 矩阵 已 知 的 信道 容量 : 
(a) T=Y= 10,1,2} 


J 





1 1 1 
3 3 3 
ld 1 1 
p(ylx)=|3F 3 3 (7-164) 
1 1 1 
3 3 34 
(b) ¥=Y= {0,1,2} | 
1 1 | 
7 2 9 
pylzy=|0 + 4 (7-165) 
2 2 
1 1 
2 0 24 
(c) X=YV= {0,1,2,3} 
p 1- p 0 0 
1- 0 0 
力 (y| 工 ) = p P (7-166) 


0 0 q 1-q 
0 0 1-@q q 

信鸽 的 信道 容量 。 假 定 某 支 军队 的 指挥 官 被 围困 在 一 个 军事 要 塞 里 。 对 于 他 来 讲 ， 只 剩 

下 一 批 信和 驶 可 以 向 他 的 盟 军 传达 信息 。 假 设 每 只 信和 馈 能 传送 的 信息 为 1 个 字母 (8 比特 )， 

他 每 隔 5 分 钟 放飞 一 批 信和 鸟 , 并 且 每 只 信鸽 达到 目的 地 所 需 的 时 间 恰 好 为 3 分 钟 。 

(a) 假定 所 有 信和 侧 都 能 安全 地 到 达 目 的 地 ， 则 这 种 联系 方式 的 容量 为 多 少 比特 /小 时 ? 

(b) 现在 假设 敌人 试图 击落 这 些 铝 子 , 并 假设 他 们 能 击 中 目标 的 比例 为 <。 由 于 鸽子 是 以 
恒定 的 速率 被 放飞 的 , 接收 者 知道 什么 时 候 有 鸽子 未 能 到 达 目 的 地 。 这 种 联系 方式 的 
容量 为 多 少 ? 

(c) 假设 现在 敌人 变 得 更 加 狭 猎 , 每 次 射 落 一 只 鲍 子 时 ,就 放出 一 只 假 馈 子 , 让 它 携 带 一 
个 随机 字母 (均匀 取 自 所 有 8 比特 的 字母 )。 对 此 情形 , 这 种 联系 方式 的 容量 为 多 少 比 
特 / 小 时 ? 

给 上 述 每 种 情形 建立 一 个 合适 的 模型 , 并 简要 说 明 信 道 容量 是 如 何 计算 得 到 的 。 

在 输出 立 上 带 两 个 独立 观察 的 信道 。 设 在 给 定 X TF, YA Y, 条 件 独立 且 条 件 同 分 布 。 

(a) 证 明 I(X; Yi, Y2) =21(X; Y,) - I( Y1; Yo). 


(b) 推断 信道 的 容量 


不 超过 信道 的 容量 的 两 倍 。 
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7.21 


7.22 
7.23 


7.24 


7.25 


7.26 


高 而 胖 的 人 。 假 设 屋子 里 的 人 平均 身高 为 5 英尺 , 平均 体重 为 100 磅 。 

(a) 请 说 明 不 会 超过 1/3 的 人 的 身高 在 15 英尺 。 

(b) 估计 屋子 里 体重 300 磅 , 身高 10 英尺 的 人 的 比例 的 上 界 。 

添加 信号 会 降低 容量 吗 ? 证 明 , 添加 一 行 到 信道 转移 矩阵 不 会 降低 容量 。 

二 元 乘法 信道 

(a) 考虑 信道 Y= XZ, 其 中 X MZ 为 相互 独立 的 二 元 随机 变量 , 取 值 均 为 0 和 1。2 服从 
Bernoulli(a), BE P(Z =1)= a。 计算 该 信道 的 容量 , 求 得 容量 达到 最 大 时 的 X 的 
分 布 。 

(b) 假定 现在 接收 器 能 像 观 察 到 Y 一 样 也 能 观察 到 Z, 则 此 时 容量 为 多 少 ? 

有 嗓 声 的 字母 表 。 考 虑 如 下 信道 

Z 


o 


X= 10,1,2,31, 其 中 Y=X+Z, Z 服从 三 个 不 同 整 数值 Z= | zi, zz,z3} 上 的 均匀 分 布 。 

(a) 若 字母 表 2 可 以 任意 选取 , 则 最 大 信道 容量 是 多 少 ? 并 给 出 达到 该 值 时 的 不 同 整 数 
21922523, WRX EWA. 

(b) 若 字母 表 2Z 可 以 任意 选取 , 则 最 小 信道 容量 为 多 少 ? 并 给 出 达到 该 值 时 的 不 同 整数 
xl,z2,z3， 以 及 十 上 的 分 布 。 

瓶颈 信道 。 假 设 信 号 XEX = 11,2,…,m| 要 通过 一 个 中 间 转 移 X>-V—yY: 


EP r=41,2,; e,m}, y= {1,2 v mi AR v= 和 1,2,…,kl。 这 里 p(v|xz) 和 p(yiwv) 任 
意 , 信道 的 转移 概率 为 p(y | xz) = >) (vl x) p(y! v)» WH C< logk。 








有 噪声 的 打字 机 信道 。 设 信道 满足 z,yE 10,1,2,31, 转移 概率 p(y|xz) 以 如 下 和 矩阵 给 出 : 
fl 1 0 0 | 
2 2 
1 1 
0 > 7 0 
1 1 
0 0 > 5 
1 1 
ly 0 0 3] 
(a) 求 该 信道 的 容量 。 
(b) 定义 随机 变量 z= g(y), 其 中 
( »=|4 如 果 yE 10,1} 
BO" |B 如 果 yEi12,3| 


对 下 面 两 个 x 的 概率 密度 函数 ,计算 I(X;2): 


oa- HO x € {1,3} 
0 WẸ zE {0,2} 


(i) 





136 


7 





7.27 
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7.29 


7.30 


(ii) 


+ mg rE 10,21 


(c) 计算 z 与 z 之 间 的 信道 容量 , 其 中 rE 10,1,2,3}，zE€1A,B}, 转移 概率 p(z|x) 为 
pl(Z=z|IX=7x)= DP(Y=yIX= zx) 
g% Ez 
(d) 对 于 (b) 中 (的 X 分 布 , X->Y 一 2 构成 一 个 马尔 可 夫 链 吗 ? 


控 除 信道 。 设 i 交 ,yz) ,了 是 容量 为 C 的 离散 无 记忆 信道 ,并 假定 立即 让 这 个 信道 与 ， 
擦 除 字符 比例 为 a 的 擦 除 信道 YV, (sly), S| BK. 


i ' ss l 


e 


0 如果 xzE11,31 
P= 


具体 讲 , S= {y1 y2 mre}, H 

PriS=y|X=zxz]=aplylz), yEy 

Pr{S=e|X=z}=a 
求 该 信道 的 容量 。 
信道 的 选取 。 求 两 信道 (V1, polr) V Miz, ps( yz|z2),y2| 联 合 后 的 信道 容量 C， 
其 中 要 求 每 次 发 送 字符 时 ， 要 么 是 在 信道 1, 要 么 是 在 信道 2 上 发 送 , 而 不 能 同时 发 送 。 
假定 两 者 的 输出 字母 表 不 相同 且 不 相交 。 
(a) WE 2°=29+2%, Ab, 25 是 容量 为 C 的 信道 的 有 效 字母 表 大 小 。 
(b) 与 习题 2.10 中 的 24=2) + 2A BE, 根据 无 噪声 字符 的 有 效 大 小 解释 (a) 中 的 结论 。 
(c) 利用 上 述 结 论 计 算 如 下 信道 的 容量 。 


1- 
0 P 0 








信 源 与 信道 。 设 二 元 对 称 信道 的 交叉 概率 为 p, 希望 编码 在 该 信道 上 传输 的 Bernoulli(a) 
过 程 Vis VD 


找 出 当 n>, 误差 概率 POW AV FON, a Ap 应 该 满足 的 条 件 。 

随机 20 问题 。 设 X 服从 |1,2,…, m1 上 的 均匀 分 布 。 假 定 m=2”。 现 在 随机 提问 : XC Si 吗 ? 
XES? ves 直到 只 剩 下 一 个 整数 为 止 。{1,2,…, mj 的 所 有 2" 个子 集 S 都 是 等 可 能 的 。 

(a) 确定 X 需要 多 少 个 确定 性 的 问题 ? 
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(b) 不 失 一 般 性 , 假设 X=1 就 是 这 样 的 随机 目标 。 对 于 & 个 问题 , 目标 2 与 目标 1 都 具 
有 相同 答案 的 概率 是 多 少 ? 


(c) 12,3,…,m| 中 与 正确 目标 1 具有 相同 问题 答案 的 期 望 目标 数 为 多 少 ? 

(d) 假设 随机 提出 了 ”+V ”个 问题 。 那 么 与 答案 一 致 的 错误 目标 数 的 期 望 值 为 多 少 ? 

(e) 利用 马尔 可 夫 不 等 式 Pri XS tu} < + ESA, 当 ”一 co 时 , 误差 概率 (还 剩 下 一 个 或 更 
多 的 错误 目标 ) 趋 于 0。 

带 反馈 的 BSC。 假 定 参数 为 p 的 二 元 对 称 信 道 是 带 反 馈 的 。 每 次 Y 被 接收 到 的 同时 , 它 

也 成 为 下 一 个 传输 。 于 是 ，X; 服从 Bem( 4), X2= Yi,X3= Yous X, = Yi 

(a) R Himsa TCX" )。 

(b) 证 明 存在 某 些 p (A, 使 得 上 述 极限 值 比 容量 大 。 

(c) 利用 这 种 反馈 传输 方案 六 (WY) = (X(W), Yis You Yen) 可 达 的 渐 近 通信 码 
RAED, W lime HW; VY ) 等 于 多 少 ? 

信道 容量 。 分 别 求 出 以 下 信道 的 容量 

(a) 两 个 并 联 BSC: 


(b) BSC 与 单字 符 信道 ; 


(c) BSC 与 三 元 信道 : 





kee) 
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(d) 三 元 信道 : 
2 1 
3 3 0 
er| 1 (7-167) 
0 3 3 
7.33 ”信道 容量 。 假 定 信道 刀 的 容量 为 C, 其 中 全 表示 一 个 mX n 的 信道 矩阵 。 
(a) 信道 
~- P 0 
P=|。 | 
的 容量 为 多 少 ? 
(b) 信道 
- [P 0 
Pp-|0 1 | 


的 容量 为 多 少 ? 其 中 I 为 kX 此 单位 阵 。 


7.34 有 记忆 信道 。 考 虑 输入 字母 表 为 XiE | 一 1,1| 的 离散 无 记忆 信道 Yi = ZX; 
(a) BAZ tA iid. 序列 , 且 服 从 如 下 分 布 
z= | l, p=0.5 (7-168) 
-1, p=0.5 
那么 该 信道 的 容量 为 多 少 ? 
现在 我 们 考虑 信道 是 有 记忆 的 。 在 传输 开始 前 ，Z 随机 选取 并 在 任何 时 刻 都 固定 。 于 
Æ, Y;= ZXjo 
(b) 4 
1, p=0.5 
Z= -1, p=0.5 (7-169) 
时 , 信道 容量 为 多 少 ? 
7.35 联合 典型 性 。 设 (X;,Y;,,Z) 4 i.i.d. ARM p(x,y,z)。 如 果 
e pla") EQ A) te) 
. p(y )E2 MAM #8) 
本 p(2"VE2 HZ) te) 
. pla”, y E27 "HX, V+e) 
© p(x se") ED HADE 
. ply", 2")E27 MHZ) 48) 
. plat, y", 2) E277 HOGY te) 
则 称 (x”,y* ,x") 是 联合 典型 的 ( 记 (z",y EA) 
现在 假定 (X, "ZARA p(2") p(y") p(2")0 BR X,Y", RAS p(x", y”, 2") 
同 的 边际 分 布 , 但 它们 是 相互 独立 的 。 基 于 炉 H(X),H(Y),H(Z),H(X,Y),H(X,2)， 
H(Y,Z)5 H(X,Y,Z), $Š Pri (X", Y, Z) EA | (HOFF). 
历史 回顾 


互信 息 的 概念 以 及 互信 息 与 信道 容量 之 间 的 关系 均 为 香农 在 其 开创 性 论文 [472] 中 首次 提 
出 。 他 给 出 了 信道 容量 定理 的 描述 以 及 利用 典型 序列 的 粗略 证 明 , 但 思路 与 本 章 所 描述 的 基本 


相似 。 


而 该 定理 的 初次 严格 证 明 归功 于 Feinstein[205], 他 利用 了 一 种 令 人 感到 费劲 的 “ 切 甜 饼 ” 
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的 方法 计算 能 够 以 低 误差 概率 发 送 的 码 字 的 数目 。Gallager[224] 利 用 随机 编码 指数 给 出 了 一 个 
比较 简单 的 证 明 。 我 们 的 证 明 是 基于 Cover[ 121] 和 Forney 的 没有 发 表 的 讲义 [216] 得 出 的 。 

费 诺 [201] 利 用 和 冠 以 自己 名 字 的 不 等 式 给 出 了 逆 定 理 的 证 明 。 强 逆 定 理 是 由 Wolfowitz[ 565] 
首次 给 出 证 明 的 , 他 使 用 的 技巧 与 典型 序列 非常 相近 。 随 后 ，Arimoto[25] 和 Blahut [65] 分 别 独 
立地 开发 出 了 计算 信道 容量 的 一 个 迭代 算法 。 

零 误 差 容量 的 概念 是 香农 在 [474] 中 提出 来 的 , 在 该 文章 中 , 他 还 证 明了 反馈 并 不 会 给 离散 
无 记忆 信道 的 信道 容量 带 来 增长 。 求 解 零 误差 容量 问题 本 质 上 是 组 合 学 的 问题 , 该 领域 中 第 一 
个 重要 的 结果 当 属 Lovasz [365]。 求 解 零 误差 容量 的 一 般 问题 仍然 没有 解决 , 有 关 结 果 的 评论 可 
BF Korner 和 Orlitsky[ 327]. 

量子 信息 论 , 对 应 于 本 章 中 经 典 理论 的 量子 力学 , 已 经 独树一帜 形成 了 一 个 重大 的 研究 领 
域 。 相 关 知 识 可 以 参看 一 篇 出 色 的 综述 性 文章 Bennett 和 Shor[49]， 以 及 Nielsen 和 Chuang 的 著 
作 [395]。 





第 8 章 Aad 


我 们 现在 介绍 微分 炉 的 概念 , 它 是 一 个 连续 随机 变量 的 炉 。 微 分 炉 与 最 短 描述 长 度 也 存在 着 
RA, 并 且 在 许多 方面 与 离散 随机 变量 的 炉 相 类 似 。 但 是 它们 之 间 仍 然 存在 一 些 重 要 的 差别 , 所 
以 ,在 使 用 这 些 概 念 时 需要 加 以 注意 。 


8.1 定义 
定义 设 X 是 一 个 随机 变量 , 其 累积 分 布 函数 为 F(z)= Pr(X<z)。 如 果 F(z) 是 连续 的 , 则 
称 该 随机 变量 是 连续 的 。 当 F(z) 的 导数 存在 时 , $ /(z)= F'(z)。 若 | fle) = 1, 则 称 /(z) 是 


X 的 概率 密度 函数 。 另 外 , 使 f(z) >0 的 所 有 z 构成 的 集合 称 为 X 的 支撑 集 (Support set). 
定义 一 个 以 f(z) 为 密度 函数 的 连续 型 随机 变量 X HRD Mi (differential entropy)h(X) 定 
SLA 


h(x) =- | f(r)logf(z)dr (8-1) 
其 中 S 是 这 个 随机 变量 的 支撑 集 。 
与 离散 情形 一 样 , GT ROL FR BR BL, A, ARRIE TS 


h( 了 而 不 是 h(X)。 

注释 ” 当 每 次 给 出 的 例子 涉及 积分 或 者 密度 函数 时 ,都 应 该 说 明 它 们 是 否 存 在 。 因 为 容易 构 
造 出 随机 变量 的 例子 , 使 它 的 密度 函数 不 存在 , 或 者 上 述 的 积分 不 存在 。 

例 8.1.1 (均匀 分 布 ) 考虑 一 个 服从 [0, a] 上 均匀 分 布 的 随机 变量 , 它 的 密度 函数 在 [0，a] 
上 为 1/a ,而 在 其 他 地 方 为 0。 此 时 , 该 随机 变量 的 微分 炉 是 


A(X) = | L log 二 dz = loga (8-2) 
注 ; 当 a<1 时 , loga<0, EERROR. 因此 , SRR, AORTA. 然而 ， 
如 我 们 所 期 望 的 那样 ,2:X) = 2 = g, 这 正好 是 支撑 集 的 长 度 , 所 以 它 总 是 非 负 的 。 
例 8.1.2( 正 态 分 布 ) 设 X 一 gz)=(1AM Inet )e TAa 。 若 以 奈 特 (nat) 为 单位 计算 微分 精 ， 
我 们 有 





n($)= — [ing (8-3) 
- - fsc |- Z5- in Deo" | (8-4) 
= EX + 二 mn 2m0? (8-5) 
=F+tin 2x0? (8-6) 
=F In e+ -$n 270? (8-7) 


=Fln 2neo? AH (8-8) 
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改变 对 数 的 底 , 可 得 
h($) =F log 2reo? 比特 (8-9) 


8.2 连续 随机 变量 的 AEP 


离散 随机 变量 炳 扮演 的 一 个 重要 作用 体现 在 AEP 中 , 它 指出 对 于 一 个 独立 同 分 布 的 随机 变 
量 序列 ，p(Xi,X,,…,X, ) 将 以 高 概率 接近 于 2- 中 (XY。 这 促使 我 们 定义 典型 集 的 概念 并 且 将 典 
型 序列 的 习性 特征 化 。 

对 于 连续 随机 变量 , 我 们 依然 可 以 这 样 做 。 

定理 8.2.1 设 Xi, X2 X, 是 一 个 服从 于 密度 函数 F(z) 的 独立 同 分 布 的 随机 变量 序列 。 
那么 下 面 的 极限 依 概 率 收 仇 。 


-Llog (X1, X25 X,) EL -log f(X) = A(X) 依 概 率 (8-10) 


证 明 : 该 定理 的 证 明 可 由 弱 大 数 定律 定理 直接 推出 。 口 
这 启发 我 们 给 出 如 下 的 典型 集 定义 。 
定义 ”对 。>0 及 任意 的 n, 定义 f(z) 的 典型 集 Ag) 如 下 : 


AP = | (x1, T,X ) ES": = Log f(xy z2, zn) — A(X) <e (8-11) 
n 


其 中 farroz) = IL fled « 


连续 随机 变量 的 典型 集 的 性 质 与 离散 随机 变量 的 典型 集 的 性 质 相 似 。 只 不 过 离散 情形 下 典 
型 集 的 情形 用 基数 , 而 连续 随机 变量 典型 集 的 情况 用 体积 。 
定义 ”集合 ACR" 的 体积 Vol( 有 A) 定义 为 


Vol(A) = | dmiderde, (8-12) 
定理 8.2.2 RRA” Fee PHORM: - 
1. 对 于 充分 大 的 n, Pr(AM”) >1-€. 
2. 对 于 所 有 的 n, VICAR KOO 
3. 对 于 充分 大 的 n, VALAMA- 274), 
WEAR: 根据 AEP( 定 理 8.2.1)， 依 概率 有 一 士 log/(X") = -5logf(z)>h(X), 故 性 质 1 
获 证 。 另 外 ， 


1= | fl za stn )dardey de, (8-13) 
> | frm) dreidr de, (8-14) 
> | AMO de rdiryde, (8-15) 
= peoo] dridardz (8-16) 
= 27 MMF OVO (A) ` (8-17) 


因此 , 性 质 2 获 证 。 我 们 进一步 论证 该 典型 集 的 体积 至 少 是 这 么 大 。 如果 n 足够 大 使 得 性 质 1 成 
立 , 那么 
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1 -e< flare, ,Tn )dzidzz dz, (8-18) 
<f 2 RO da dag dzn (8-19) 
A, 
= zra- f dzildza…dzn (8-20) 
A, 
= 272A -IVA A™) (8-21) 
故 性 质 3 获 证 。 因 此 ,对 充分 大 的 n, A 

a e) AO “9 <Vol( AW? K2 OOt e) (8-22) ] 

定理 8.2.3 在 一 阶 指数 意义 下 ， 在 所 有 概率 ZP1- e hke t, AM 是 体积 最 小 者 。 
TER: 具体 证 明 过 程 与 离散 情形 相同 。 口 


该 定理 表明 拥有 大 部 分 概率 的 最 小 集合 的 体积 大 约 为 2. 这 是 n 维 正方 体 , 因而 , 对 应 的 
边 长 为 (2*)!”=2*。 KAMARA MAE: 焙 就 是 拥有 大 部 分 概率 的 最 小 集 的 边 长 
的 对 数值 。 因 此 , 较 低 的 糖 意味 着 随机 变 量 被 限于 一 个 狭小 的 有 效 正方 体内 , 而 较 高 的 炳 意味 着 
该 随机 变量 是 高 度 分 散 的 。 

注意 : EMG SHOR ARKH, 男 有 一 个 称 为 费 希 尔 信 息 (Fisher information) 的 量 
正好 与 典型 集 的 表面 积 相关 。 我 们 将 于 11.10 节 和 17.8 节 详 细 讨 论 。 


8.3 HS AR 


考虑 图 8-1 中 所 示 的 一 个 密度 函数 为 f(x) O 
随机 变量 X, 假定 将 X 的 定义 域 等 长 度 分 割 成 长 
度 为 A 的 若干 小 区 间 , 并 且 假 定 密度 函数 在 这 些 一 =|^- 一 
小 区 间 内 是 连续 的 。 由 中 值 定 理 可 知 , 在 每 个 小 
区 间 内 存在 一 个 值 zx; 使 得 


(i+1)A 
fadas f Kaede (8-23) 


考虑 量化 后 的 随机 变量 X, 其 定义 是 
X=2, 当 iA<X<(i+1)A (8-24) 


则 X*= x; 的 概率 为 


图 8-1 连续 随机 变量 的 量化 


G+) 
p=| f(z)dzr = f(x)A (8-25) 


HED Ala )A= | 7(z) = 1 ,所 以 ,量化 后 的 随机 变量 Xe HOR 


H(X) = - È pilogp; (8-26) 
= ~ È f(x,)dlog( f(zi)A) (8.27) 
= — DAF(a;)logf(a;) -X f(2;) AlogA (8-28) 
= — SAF(z; )logf (xi) — logA (8-29) 


如 果 f(x)logf(x) 是 黎 曼 (Riemann) 可 积 的 (确保 上 述 极限 存在 的 一 个 条 件 [556]), MARSE 
积 的 定义 A->0 时 , 式 (8-29) 中 的 第 一 项 趋 近 于 -f(z)logf(z) 的 积分 。 综 上 所 述 , 得 到 如 下 
定理 。 
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定理 8.3.1 如 果 随 机 变量 和 的 密度 函数 FLz) 是 黎 曼 可 积 的 ,那么 


H(X*) + logA>h(f) =h(X), 4 40 (8-30) 
于 是 , 连续 随机 变量 X Bitn 比特 量化 处 理 ( 此 时 分 割 的 小 区 间 长 度 为 25。 一 一 译 者 注 ) 后 
HKHH A(X) tno 
Bi 8.3.1 


1. 如 果 XX 服从 [0,1] 上 的 均匀 分 布 , BR A=2°" WW A=0,H(X) =n, 于 是 ,在 精确 到 位 
的 意义 下 ， 使 用 n 比特 足以 描述 X。 

2. 如 果 X 服从 | 0 ,二 ] 上 的 均匀 分 布 ,那么 在 二 进 制 表示 中 ，X 取 值 的 小 数 点 右边 的 前 3 位 
必定 为 0。 因而 ,在 精确 到 n 位 的 意义 下 , 描述 X NEn- 3 比特 , BOG A(X) n -3 相 一 致 。 

3. WR X~N (0,07) A o?= 100, 那么 , 在 精确 到 n 位 的 意义 下 ,描述 XX 需要 的 平均 长 度 为 
nt Flog 2x eo?) = n +5.37 比特 。 

一 般 来 讲 ,在 精确 到 ”位 的 意义 下 , ACX) + n 是 为 了 描述 X 所 需要 的 平均 比特 数 。 


一 个 离散 随机 变量 的 微分 箭 可 以 看 成 - ce 。 注意 到 2-”=0, 这 与 离散 随机 变量 支撑 集 的 体 
积 为 零 的 思想 相 一 致 。 


8.4 ”联合 微分 炳 与 条 件 微 分 炳 


与 离散 情形 相同 , 可 以 将 单个 随机 变量 的 微分 粮 的 定义 推广 到 多 个 随机 变量 的 情形 。 
定义 ”联合 密度 函数 为 f(z1, zx2，,…, zz; ) 的 一 组 随机 变量 X1,X,,…,X 的 联合 微分 精 定 
MA 


| A(Xis Kas Xs) =~ | f(a" )log fla" dda" (8:31) 
定义 如 果 X,Y 的 联合 密度 函数 为 几 z,y), EMAAR AC XI YY 
A(X | Y) =- [flx y)log f(z | y)dzdy (8-32) 
由 于 通常 (x1y) 一 f(z,y)/f(y), 所 以 ,可 以 改写 为 
h(XIY)=h(X,Y)-h(Y) (8-33) 


但 我 们 必须 注意 是 否 有 微分 焙 为 无 穷 。 

FF THER PA MAA. 

EBSA. SALAAM) HX, XQ, X, 服从 均值 为 PF， 协 方差 给 阵 为 K 的 多 元 
ESDA, UAN, (2, K) RN (w, 攻 ) 来 记 该 分 布 。 译 者 注 ) 则 


h(X X2 X )= A(N (es 区))= 半 log(2xej"| 天 | 比特 (8-34) 


其 中 |K| 表 示 K 的 行列 式 。 
证 明 : X,,X2,-°, X, 的 联合 概率 密度 函数 为 


f(x)= 





CER e (835) 
2r 2 
则 
= 1 Tyg -1 n i 
h(f)= - | f(x)[- Fx- 1)K (x- pw) —In(/2n)" | K (2 Jax (8-36) 
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= FELE (X -pK (X; — y) |+ Finn)" IKI | (8-37) 
- 3E[ DX = p(X (KD J+ Enl)" 1K I (8-38) 
= 4 DEL, = Xi p) (K); + F In(2n)" IK | (8-39) 
=} > SKK s+ Fin(2n)" IK | (8-40) 
=} Š (KKD; + L n(m)" 1K | (8-41) 
=} Xl + L n(27)" 1 K | (8-42) 
= 24+ Ln(2m"IK]| (8-43) 
=Fin(2ne)"|K| 奈 特 (8-44) 
= 二 log(2xe)"|K| 比特 (8-45) 


8.5 ANmSaaS 
PLE NAAR DIODA I(X;Y) 的 定义 推广 到 连续 型 随机 变量 的 概率 密度 上 。 
定义 ”两 个 密度 函数 S Mg 之 间 的 相对 炳 (或 Kullback-Leibler 3 &)D(f || g) 定 义 为 
D(f lig) = fy log £ (8-46) 
注意 到 只 有 当 f 的 支撑 集 包含 在 g 的 支撑 集中 时 , D fl g) 才 是 有 限 的 。( 受 连续 性 的 启 
发 , 我 们 令 0log $ =0. ) 
定义 ”联合 密度 函数 为 /f(x,y) 的 两 个 随机 变量 间 的 互信 息 I(X;Y) ELA 
J f(x,y) 
I(X;Y) = [Ae y) FC Fdy (8-47) 
由 定义 , 显然 有 
I(X;Y)=h(X)-A(XIY)=h(Y)-h(YIX)=A(X)+A(Y)-A(X,Y) (8-48) 
和 
I(X;Y)=D(f(2z,y) ll f(x) fly) (8-49) 
DCFllsg) 和 I(X; Y) 具 有 与 离散 情形 时 相同 的 性 质 。 特 别 地 , 两 个 随机 变量 间 的 互信 息 是 经 
过 量化 处 理 后 的 随机 变量 间 的 互信 息 的 极限 , 这 是 由 于 


I(X*; Y*) = H(X*) — H(X*| Y^) (8-50) 
aeh(X)—- logA— (h(X| Y) — logA) (8-51) 
=1(X;Y) (8-52) 


更 一 般 地 , 我 们 可 以 从 随机 变量 的 值 域 的 有 限 分 割 的 角度 来 定义 互信 息 。 设计 为 随机 变量 X 
的 值 域 , 人 为 守 的 一 个 分 割 是 指 存 在 有 限 个 不 相交 的 集合 P; EUP =X., X 关于 PP 的 量化 ( 记 
为 [Xjp ) 是 定义 如 下 的 离散 随机 变量 : 


Pr([XIp = i) = P(X EP) = |,dF(z) (8.53) 
对 于 任何 两 个 分 割 分 别 为 与 @ 的 随机 变量 X 与 Y, 可 以 利用 式 (2-28) 来 计算 它们 对 应 的 量化 随 
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机 变量 的 互信 息 。 于是, 对 于 任意 成 对 的 随机 变量 , 其 互信 息 可 以 定义 如 下 
定义 ”任何 随机 变量 X SY ME BRO 
I(X;Y)= sup I([Xjp;[L Yle) (8-54) 


其 中 上 确 界 遍历 所 有 可 能 的 有 限 分 割 全 与 @ 。 
这 是 定义 互信 息 非 常 明 智 的 方式 ,也 适应 于 含有 原子 的 联合 分 布 ， 密 度 函 数 和 奇异 部 分 。 更 
进一步 ， RASH AAP HO , 那么 可 以 获得 一 个 单 增 序列 TI([X]P,[Yje )AT。 
类 似 于 式 (8-52) 的 讨论 , 可 以 证 明 如 此 定义 的 互信 息 对 于 具有 相同 密度 函数 的 两 个 连续 型 随 
机 变量 而 言 , 正好 与 式 (8-47) 等 价 。 而 对 于 离散 型 随机 变量 来 说 , 正好 与 式 (2-28) 等 价 。 
例 8.5.1( 两 个 相关 系数 为 o 的 相关 高 斯 随机 变量 之 间 的 互信 息 ) 令 (X,Y) 服 从 NI(0, 开 )， 
其 中 ， 
7 a po 
k[t ez] (oss) 
HBA ACX)=ACY)= F log(2ne) 0, T A(X, Y)= L log(2ne)? |K|= F log(2ne)?o*(1 — p*)o 
因此 ， 
I(X;Y)=h(X)+h(Y) -A(X, Y)= -Slog(1- p) (8-56) 


所 以 , 当 p=0 时 , XX 与 Y 相互 独立 以 及 互信 息 为 0。 当 p= +1 时 , X 与 了 完全 相关 且 互 信 
息 为 无 穷 大 。 


8.6 RM. AMMO RA BAER 


定理 8.6.1 
; D(f ll g)20 (8-57) 
当 且 仅 当 fog ,几乎 处 处 (a.e.) 等 号 成 立 。 
证 明 : 设 f 的 支撑 集 为 S$。 则 


-DU la)= | f log $ (8-58) 

三 og| 7 于“ 由 Jensen 不 等 式 ) (8.59) 

= logl g (8-60) 

. <log 1=0 (8-61) 

当 且 仅 当 Jenson 不 等 式 中 的 等 号 成 立 , 即 当 且 仅 当 /= ga.e. 等 号 成 立 。 o 


推论 (X; Y)20, 4a% X 与 了 相互 独立 等 号 成 立 。 
推论 a(XIY)SA(X), ANZ X 与 了 相互 独立 等 号 成 立 。 
定理 8.6.2 (RP MHRA) 


h(X,, X230 Xn) = SAX; | Xi X25’ Xi) (8-62) 

证 明 : 可 由 定义 直接 得 到 。 口 
推论 

h(X,, Xs, X SERC X;) (8-63) 


当 且 仅 当 Xi Xot X, 相互 独立 等 号 成 立 。 








N 
Un 
w 


146 | 第 8 章 





证 明 : 可 由 定理 8.6.2 和 定理 8.6.1 的 推论 直接 得 到 。 口 

应 用 (阿达 玛 ( Hadamard ) 不 等 式 ) BX~N(0,K)R-+ SALAD, MAH BH EL 
公式 代入 上 面 的 不 等 式 中 , 我 们 就 可 以 得 到 

IKIS TI k: (8-64) 


此 即 为 阿达 玛 不 等 式 。 许多 有 关 行列 式 的 不 等 式 可 以 由 信息 论 中 的 不 等 式 通过 这 种 方式 推导 而 
得 到 ( 见 第 17 BE). 


定理 8.6.3 
h(X+c)=h(X) (8-65) 
FB RRFRARRD EH, 
证 明 : AY a OE AE O 
定理 8.6.4 
h(aX) =h(X) + logla| (8-66) 


证 明 : & Y=aX。 则 f=), 且 经 过 积分 变量 替换 , 有 





h(aX) =- [fy(y)logfy(y)dy (8.67) 
1 y 1 y 
= -| la [人 (2 Je Ha) Jay (8-68) 
=- [Fel x )lowfy(2)dex + log! a | (8-69) 
=h(X)+logla| (8-70) 口 
类 似 地 , 对 于 取 值 为 向 量 的 随机 变量 , 可 以 证 明 下 面 的 推论 。 
推论 
h(AX)=h(X) + logldet(A)| (8-71) 


我 们 现在 将 证 明 在 具有 相同 协 方 差 阵 的 所 有 随机 向 量 中 ,多 元 正 态 分 布 使 粹 达到 最 大 。 
定理 8.6.5 设 随 机 向 量 XR 的 均值 为 零 ， 协 方差 给 阵 为 K = EXX'( 即 Kj = EXX,,1<i, 


j<n), HW HOOF log(2ne)"|K|, ¥LRS X~N(O,K)FF RE. 

证 明 : 设 g(x) 是 对 任意 的 i 和 j 均 满足 |g(x)zix, dx = Ky 的 密度 函数 。 令 是 服从 如 式 
(8.35) 中 所 给 出 的 NM(0, 开 ) 随 机 向 量 的 密度 函数 ， 这 里 令 .=0。 注意 到 log$x (x) 是 一 个 二 次 型 ， 
并 且 | rar(z)dx = Ky 则 


0<D(g || $k) (8-72) 
= |glog(g /#x) (8-73) 
= -h(g)- | glog#x (8-74) 
= ~ hg) - | bxloat (8-75) 
= —h(g)+h( $x) (8-76) 


其 中 所 作 的 替换 | glog = |#klog#x 是 由 于 二 次 型 og#k(x) 关 于 g Ad, RAM. O 


特别 , 在 所 有 具有 相同 方差 的 分 布 中 , BOER AL. RRS H—TSRERS 
式 极其 相似 的 估计 。 设 随机 变量 X ASG AX), X 为 X 的 估计 , ECX -8Y 表示 期 望 预测 


fh 分 Kh 


误差 。 以 下 h(X) 的 量 纲 为 奈 特 。 
定理 8.6.6 (HRAZSMAM) 对 任意 随机 变量 X 及 其 估计 义 ， 
E(X- zy a 
其 中 等 号 成 立 的 充分 必要 条 件 是 XADM An AAE, 
证 明 : 令 文 为 X 的 一 个 估计 ,此 时 
E(x-xX) >minE(X - X)? 
= E(X- E(X))? 
= var(X) 


sA 2x) 
=m 
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(8-77) 
(8-78) 
(8-79) 


(8-80) 


其 中 , 式 (8-77) 成 立 是 因为 X 的 均值 是 最 佳 估 计 , 而 最 后 一 个 不 等 式 是 由 于 高 斯 分 布 在 给 定 
方差 的 条 件 下 具有 最 大 箭 。 所 以 , 式 (8-77) 变 成 等 式 仅 当 文 = 开 (X) 是 最 佳 估计 而 式 (8-80) 变 成 等 


式 仅 当 X 是 高 斯 分 布 。 
推论 ” 当 边 信息 Y 以 及 估计 义 (Y) 已 知 时 , 可 以 推出 


E(X- YI 1 2h(CXIY) 





148 第 8 章 








习题 


8.1 MDM. HO Re ae LH HE AX) = |S nf : 
(a) 指数 密度 函数 FLz)= Xe 一,z>0 。 
(b) 拉 普 拉 斯 密度 函数 f(z) = 二 Me-azl。 
(c) Xi 与 X 的 和 的 密度 函数 , 其 中 Xi BX) 是 独立 的 正 态 分 布 , 均值 为 m IEH of ,i= 
LD 

8.2 AAAS, HK, AK, AAA nxn 对 称 非 负 定 和 矩阵 。 证 明 下 列 由 攀 欠 (Ky Fan) [199 ] 
给 出 的 结果 : 

io Dye eA 对 于 | 

其 中 |K| 表 示 K 的 行列 式 。[ 提 示 : 先 假设 Xi~N(0, Kı), X.~N(0,K2), 以 及 0= 
Bernoulli(a), 令 Z= Xo, 然后 利用 结论 h(Z|A)<h(Z)o] 

8.3 均匀 分 布 噪声 。 设 一 个 信道 的 输入 随机 变量 X 服从 区 间 一 1 过 zx 志 1 人 2 上 的 均匀 分 布 , 而 
信道 的 输出 信号 为 Y=X+2Z, HZ 是 噪声 随机 变量 , 服从 区 间 — a2 za 上 的 均 
名 分 布 。 
(a) 求 ICX;Y) 作 为 a 的 函数 。 
(b) 对 于 a=1, 当 输 入 信号 X 是 峰值 约束 的 时 候 , B X 的 取 值 范围 限制 于 - 12 委 z 委 1/2 

nt, 求 信道 容量 。 为 使 得 互信 息 I(X;Y) 达 到 最 大 值 , X 应 该 服从 什么 概率 分 布 ? 
(c) ( 选 做 ) 当 a 的 取 值 没有 限制 时 ， 求 信道 容量 。 这 里 仍然 假定 X 的 范围 限制 于 一 和 
rel. 

8.4 量化 的 随机 变量 。 已 知 镭 元 素 的 半衰期 为 80 F, 我 们 欲 描述 镭 原 子 的 训 变 时 间 ( 以 年 计 
算 ), 如 果 精 确 到 3 位 数字 ， 这 样 的 描述 平均 大 概 需要 多 少 比特 ? 注意 半衰期 就 是 分 布 的 中 
位 数 。 


8.5 尺度 性 质 。 BACK)= 一 |f(x)logf(x)dx ,证 明 h(AX)=log|det(A)| +h(X)。 


8.6， 变 分 不 等 式 。 对 于 正 随机 变量 X, 验证 
log Ep(X) = supl Eq (logX ) - D(Q || P)] (8-93) 


其 中 Ep(X) = SaP(x) UR DIQ | P) = DQ) QER, HA LAER NA 
Q(x) 0, SQ(x) = 1. HE J (Q) = Eoln X) - D(Q || P) + A(X Ql) -1) 极端 化 


的 Q 就 足够 了 。 
8.7 DARRERA SX WRAY = 1ai,az,，…} 上 的 离散 随机 变量 ,Pr(X = ai) = pio 证 明 
H( pis P20") < Floa(2ne) (> pit - (Divs) + a (8-94) 


更 进一步 , 对 于 任何 置换 o, 
H (pis Pas) < Float ne) ( D pan? (Riro) ta) 1899 





f 


分 À 149 





8.8 


8.9 


(提示 : 构造 一 个 随机 变量 X ,使 得 Pr(X =i)= p;。 令 UU 为 (0, 1] 上 的 均匀 分 布 随 机 变量 ， 
RS Y=X'+U, 其 中 X' 与 U 相互 独立 。 利用 最 大 粹 界定 Y 来 获得 该 问题 的 两 个 界 。 该 
界 归功 于 Massey 与 Williams 的 未 发 表 的 文章 。) 

有 均匀 干扰 骂 声 的 信道 。 设 一 个 可 加 信道 的 输入 字母 表 计 = 10,41, £2) Y= X+ 
Z, 其 中 , Z 是 区 间 [ -1, 1] 上 的 均匀 分 布 。 于 是 , 信道 的 输入 是 一 个 离散 的 随机 变量 , 否 
则 输出 是 连续 型 的 。 计算 该 信道 的 容量 C= max I (X, Y)o 

高 斯 互信 息 。 假设 (X,Y,Z) 是 联合 高 斯 分 布 , HA X 一 Y 一 Z 构成 一 个 马尔 可 夫 链 。 令 
(X,Y) 与 (了 ,QZ) 的 相关 系数 分 别 为 pl 与 cx。 求 I(X;2Z)。 


8.10 ”典型 集 的 形态 。 令 X: 为 服从 F(z) 的 独立 同 分布 序 列 , 其 中 


8.11 


f(x)=ce 2 
令 h= -| Inf 。 描 述 典 型 集 AP = |2"ER fla )EI | HBA 
非 遍历 高 其 过程。 考虑 在 具有 独立 同 分 布 白 噪声 11 干扰 背 景 的 信道 中 的 一 个 常 信号 Vo 
FE, X= V+ Z 为 接收 信号 。 BE V SIZ NOL, 那么 考虑 下 列 问 题 : 
(a) 1 平稳 吗 9 58] 
(b) 求 极限 lim, -二 DO Xio 它 是 随机 的 吗 ? 


(o) [XA RUE h 是 多 少 ? 
(d) 求 它 的 最 小 均 方 误差 估计 X, a (X), 并 求 出 o = lim, 0 E(X, - Xp) 0 





(e) |X 有 没有 AEP? 即 -二 logf(X")->h 成 立 吗 ? 


历史 回顾 


香农 在 他 的 原创 性 论文 [472] 中 对 微分 炉 与 离散 炉 进 行 了 介绍 。 关于 任意 随机 变量 的 相对 炉 
和 互信 息 的 一 般 化 的 严格 定义 ,是 由 科 尔 莫 戈 罗 夫 [319] 和 Pinsker [425] 发 展 的 , 他 们 将 互信 息 
定义 成 sapp o I([Xlp;[Y]e), 其 中 的 上 确 界 是 关于 所 有 有 限 的 分 割 刀 和 忽 取得 的 。 
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最 重要 的 连续 字母 表 信道 是 如 图 9-1 中 所 描述 的 高 斯 信道 。 它 是 一 个 时 间 离 散 信道 , 在 时 
刻 i, 输出 信号 是 输入 信号 X; 与 噪声 Z; 之 和 Y,, 其 中 2 为 独立 同 分 布 序列 且 服 从 方差 为 N 的 高 
斯 分 布 。 于 是 ， 
Y,= X;+ Z,, Z;—~N (0, N) (9-1) 
假设 噪声 Z 与 信号 X 相互 独立 。 该 信道 是 对 于 许多 普通 的 通信 信道 的 概括 ,比如 有 线 与 无 线 电 
话 信道 和 卫星 链接 信道 。 若 无 进一步 的 条 件 限 制 , 该 信道 的 容量 可 以 为 无 穷 。 如 果 噪 声 的 方差 
为 零 , 接收 者 可 以 完全 无 误 地 收 到 每 一 个 被 传输 的 字符 。 由 于 X 可 以 取 任 意 实 值 , 所 以 这 个 信道 
可 以 准确 无 误 地 传输 任何 一 个 实数 。 Z, 
如 果 噪声 方差 不 为 0 且 对 输入 信号 没有 限制 , 可 以 选择 输入 信号 的 
一 个 任意 分 散 的 无 穷 子 集 , 使 得 我 们 可 以 在 输出 端口 以 任意 小 的 误差 概 。 六 Y, 
率 识别 它们 。 该 方案 也 具有 无 穷 的 容量 。 于 是 ,如 果品 声 方差 为 0 或 者 oo, oe 
对 输入 信号 没有 限制 , 则 信道 的 容量 为 无 穷 。 
对 输入 最 通常 的 限制 是 在 能 量 或 者 功率 方面 的 约束 。 假 定 对 于 平均 功率 的 约束 , 即 对 于 在 
信道 上 传输 的 任意 码 字 (z1, x,… ,zx,), 我 们 要 求 
x60 <P (9-2) 
xt 这 样 的 通信 信道 模拟 许多 实际 的 信道 , 包括 无 线 电 和 卫星 通信 。 信 道中 的 可 加 噪声 可 能 源 
于 各 种 各 样 的 因素 。 然 而 , 根据 中 心 极 限定 理 可 知 , 大 量 的 小 随机 事件 的 累积 效果 渐 近 于 正 态 分 
布 , 所 以 在 许多 情形 下 高 斯 假设 都 是 有 效 的 。 | 
首先 分 析 一 个 简单 的 次 优 方法 来 使 用 该 信道 。 假 定 使 用 该 信道 一 次 发 送 1 比特 消息 。 在 额 
定 功率 限制 下 , 最 佳 方案 是 发 送 + VP 和 -VP 之 中 的 一 个 。 接 收 者 根据 接收 到 的 Y 来 揣测 发 送 
的 是 两 个 中 哪 一 个 。 假 定 二 者 是 等 可 能 的 (车 我 们 想 发 送 1 比特 的 消息 , 这 恰好 相符 ), 则 最 优 的 
译 码 规则 为 : 当 Y>0 时 认为 发 送 的 是 +VE ,而 当 Y<0 时 认为 发 送 的 是 -VP 。 此 译 码 方案 的 





误差 概率 是 

P, = 二 Pr(Y<0IX= +VP )+ 3P Y>0|X=-VP ) (9-3) 
= FP Z< -vP \X= +P )+5Pr(Z>vP |X= -vP ) (9-4) 
=Pr(Z>VvP ) (9-5) 
=1-G(VE7N ) (9-6) 

其 中 @(z) 是 累积 正 态 分 布 函数 

z 1 -E 

xz) = 9-7 
T(z) Tax 2 dt (9-7) 


若 使 用 如 此 的 方案 , 将 一 个 高 斯 信道 转换 成 一 个 交叉 概率 为 P, 的 离散 二 元 对 称 信 道 。 类 似 地 ， 
如 果 使 用 四 输入 信号 , 可 将 高 斯 信道 转换 成 一 个 离散 四 元 输入 信道 。 在 一 些 实际 的 调制 方案 中 ， 
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类 似 的 思想 也 应 用 于 将 连续 信道 转换 为 离散 信道 的 情况 。 离 散 信道 的 主要 优点 是 易于 对 输出 符 
号 做 纠 错 处 理 , 但 是 在 量化 的 过 程 中 某 些 信息 会 丢失 。 
9.1 高 斯 信道 ; 定义 


我 们 现在 定义 信道 的 (信息 ) 容 量 , 它 是 输入 和 输出 之 间 的 互信 息 关于 满足 功率 限制 的 所 有 
输入 分 布 的 最 大 值 。 
定义 ”功率 限制 为 P 的 高 斯 信道 的 信息 容量 为 


C = f max I(X;Y) (9-8) 
计算 该 信息 容量 的 方法 如 下 : 将 (X; VERF, 由 于 2 与 X 相 互 独立 , 我 们 可 得 

I(X;Y) = hCY) -ACY 1X) (9-9) 

= h(Y)-h(X+ZIX) (9-10) 

= h(Y)-h(Z|X) (9-11) 

= h(Y)-Ah(Z) (9-12) 

此 时 ， h(Z)= 寺 log2reN。 MAF X SZMUUREZ=0, 所 以 

EY? = E(X + ZY = EX? + 2EXEZ + EZ? = P+N (9-13) 


假设 给 定 EY?= P+ N, 则 由 定理 8.6.5( 在 给 定 方差 下 , ERMA BRA) TA, Y HR 
W ERA ogrel P+ N)。 
利用 上 述 结果 可 以 获得 关于 互信 息 的 上 界 , 我 们 得 到 


I(X;Y) = h(Y) - A(Z) (9-14) 
< L log2re( P + N)- F log2reN (9-15) 
= 二 gl1 + £) (9-16) 
因此 , 高 斯 信道 的 信息 容量 为 
1 P 
C = maxI (X; Y) = 地 log(1 + £) (9-17) 


并 且 最 大 值 在 X~ 人 (0,P) 时 达到 。 
下 面 将 证 明 这 个 容量 也 等 于 该 信道 的 所 有 可 达 码 率 的 上 确 界 。 证明 过 程 与 离散 信道 情形 相 
类 似 。 首 先 给 出 相应 的 定义 。 
定义 ”一 个 功率 限制 为 P 的 高 斯 信道 所 对 应 的 (M, n) 码 由 以 下 几 个 要 素 构 成 : 
1. 下 标 集 11,2,…, Mi。 
2. 编码 函数 z ;11,2,…, M] >r, 其 相应 的 码 字 为 xz"(1),x”"(2),…,zx”"(M), 且 满 足 功率 
限制 P, 即 对 每 个 码 字 


Saw) < nP, w = 1,2,.…,M (9-18) 
3. 译 码 函数 
gi" — {1,2,…,M| (9-19) 
该 编码 的 码 率 和 误差 概率 的 定义 与 第 7 章 中 离散 情形 相同 。 误 差 概率 的 算术 平均 定义 为 
Pp”) = a DA, (9-20) 


定义 ”对 于 一 个 功率 限制 为 P 的 高 斯 信道 , 如 果 存 在 码 字 满 足 功率 限制 的 一 个 (2 天 ,2 ) 码 


Ww 





un 
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序列 , 使 得 最 大 误差 概率 a0, 则 称 码 率 R 关于 该 功率 限制 为 P 的 高 斯 信道 是 可 达 的 。 
可 以 证 明 高 斯 信道 的 容量 即 是 所 有 可 达 码 率 的 上 确 界 。 
定理 9.1.1 一 个 功率 限制 为 P 且 骂 声 方差 为 N 的 高 斯 信道 的 容量 为 
C= Flog(1+ E) 比特 /传输 (9-21) 

注释 ”我们 首先 给 出 为 什么 能 够 构造 出 低 误 差 概 率 的 (2<，n) 码 的 直观 论述 。 考 虑 长 度 为 
n 的 一 个 任意 码 字 , 则 接收 到 的 向 量 信号 服从 正 态 分 布 , 并 且 其 均值 与 真实 的 码 字 相等 , 方差 等 
于 噪声 的 方差 。 所 以 , 接收 到 的 向 量 将 以 很 高 的 概率 落 在 以 真实 的 码 字 为 中 心 , 半径 为 
V ALNT6) 的 球 内 。 如 果 我 们 将 该 球 中 的 所 有 向 量 指定 给 这 个 真实 的 码 字 , 则 当 发 送 该 码 字 时 ， 
只 有 当 接收 到 的 向 量 落 在 该 球 外 时 , 译 码 才 会 出 现 错误 , 而 且 发 生 的 概率 很 低 。 

类 似 地 , 可 以 选择 其 他 的 码 字 及 其 对 应 的 译 码 球 。 能 够 选择 多 少 个 这 样 的 码 字 呢 ? 一 个 n 
维 球 的 体积 公式 是 Cur", 其 中 r 表示 球 的 半径 。 在 这 种 情况 下 , 每 个 译 码 球 有 半径 V nN。 这 些 
球 遍布 于 接收 向 量 空间 。 接 收 到 的 向 量 的 能 量 不 会 大 于 n (P+ N), 所 以 它们 落 于 半径 为 
vBEf RN) 的 球 内 。 在 这 个 体积 内 互 不 相交 的 译 码 球 的 最 大 数目 不 会 超过 

C,(n(P + N))2 
C, (nN)? 
于 是 ,该 码 的 码 率 为 才 jog( 1+ 二 )。 图 9-2 可 以 说 明 这 个 思想 。 

这 个 填 球 模型 说 明 不 能 期 望 以 高 于 C 的 码 率 而 以 低 误差 概率 发 送信 号 。 然 而 , 实际 上 能 办 到 
的 也 几乎 就 是 下 面 我 们 能 够 证 明 的 。 

证 明 ( 可 达 性 ): 我 们 将 利用 与 离散 信道 情形 时 的 信 
道 编码 定理 的 相同 证 明 思 路 ， 即 随机 码 和 联合 典型 性 译 
码 方案 来 证 明 可 达 性 。 然 而 , 考虑 到 功率 的 限制 以 及 变 
量 为 连续 的 而 非 离散 的 , 我 们 必须 做 一 定 的 修改 。 

1. 码 簿 的 生成 。 我 们 希望 生成 一 个 所 有 码 字 都 满足 
功率 限制 的 码 簿 。 为 达 此 目的 , 生成 的 码 字 必须 是 服从 
于 方差 为 P-。 的 正 态 分 布 的 i.i.d. 序列 。 由 于 对 充分 大 
Hn, 有 士 避 XP-e, 所 以 一 个 码 字 不 满足 功率 限制 
的 概率 将 会 很 小 。 令 X,(w),i=1,2,… ,nw=1,2,…， l 
PRA iid- N (0,P-6), 形成 码 字 X0), X2), =, 图 9-2 关于 高 斯 信道 的 填 球 模型 
X"(2") ER", 

2. 编码 。 码 秒 生 成 之 后 , 将 其 告 之 发 送 者 和 接收 者 。 为 了 发 送 消息 下 标 w, 发 送 器 则 发 送 
码 短 中 的 第 w TAFX (w). ， 

3. 译 码 。 接 收 者 在 码 字 列表 | X* (ww)| 中 寻找 与 接收 到 的 向 量 是 联合 典型 的 码 字 。 如 果 存 在 
且 仅 存在 一 个 这 样 的 码 字 Xw), 则 接收 者 断定 WH X"(w) 就 是 所 传输 的 码 字 。 否 则 ,接收 者 
断定 出 现 错误 。 如 果 被 选择 的 码 字 不 满足 功率 限制 , 则 接收 者 也 断定 它 出 现 错误 。 

4. 误差 概率 。 不 失 一 般 性 , 假定 码 字 1 被 发 送 。 于 是 ，Y" = X"(1) + Z"。 定 义 下 列 事件 : 


E, = UX > P| (9-23) 


= 2#log(1 + £) (9-22) 











x2 
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= (X (i), Y") Æ A™® p} (9-24) 

如 果 Eo 出 现 (违反 了 功率 限制 ), 或 者 ES 出 现 ( 所 传输 的 码 字 与 接收 到 的 序列 不 是 联合 典型 

的 ), 或 者 EUE3U…U Ex 出 现 ( 某 个 错误 码 字 与 接收 到 的 序列 是 联合 典型 的 )， 则 会 出 现 错 

误 。 今 5 代表 事件 WEW, PEREA W=1 时 E 的 条 件 概率 。 因 此 , 根据 事件 的 并 的 概率 不 
等 式 ， 

Pr(E1W=1)= P(E) = P(E, UE, U EDU Es U = U Ep) (9-25) 


< P(E) + P(E4) + Sre (9-26) 
由 大 数 定律 , 当 nokt P(E) >00. WE, 根据 联合 AEP( 它 的 证 明 与 离散 情形 的 证 明 相同 )， 
有 P(E 0, 因此 
P(E) Se n 足够 大 (9-27) 
由 码 的 生成 过 程 可 以 看 出 X*(1) 与 X(i) 是 独立 的 , A, Y 与 X*(i) 也 是 独立 的 。 因 此 , 根据 
联合 AEP, X"(i)-5 Y 为 联合 典型 的 概率 委 2- "71X35)。 
现在 令 W Æ| 2 ,…, 2 下 | 上 的 均匀 分 布 , 因此 ， 


Pr(€ =R DA = PY (9-28) 
此 时 , 对 充分 大 的 n ARIC; Y) -3¢, 有 
Pt = Pr(E) = Pr(E | W = 1) (9-29) 
< P(E) + P(E4) + SPE) (9-30) 
<etet ŞI 9-2 GY) -3e) (9-31) 
= 2e + (27k _ 1) 272% ¥)-3e) (9-32) 
<2e + 2270X: P-R) (9-33) 
<3e (9-34) 


这 证 明了 一 个 好 的 (2 下 ,n) 码 的 存在 性 。 

现在 选择 一 个 好 的 码 秒 ,并 删除 其 中 最 坏 的 一 半 码 字 , 获得 一 个 新 的 码 , 它 具 有 低 的 最 大 误 
差 概 率 。 特 别 地 , 剩 下 的 每 一 个 码 字 都 满足 功率 限制 (这 是 由 于 不 满足 功率 限制 的 码 字 的 误差 概 
率 为 1, 它 必 定 属于 码 字 中 最 坏 的 那 一 半 )。 因 此 我 们 已 经 构造 出 一 个 码 , 它 的 码 率 可 以 任意 接 
近 信 道 容量 。 至 此 , 完成 了 定理 前 半 部 分 的 证 明 。 在 下 一 节 中 , 我 们 证 明 可 达 码 率 不 会 超过 信道 
容量 。 口 


9.2 高 斯 信道 编码 定理 的 逆 定 理 
在 这 节 中 , 通过 证 明码 率 R > C 是 不 可 达 的 ,来 完成 高 斯 信道 的 容量 是 C= 六 log(1+ 六 ) 的 
证 明 。 该 证 明 与 离散 信道 情形 下 的 证 明 相 类 似 。 主 要 的 区 别 在 于 引入 了 功率 限制 这 个 新 因素 。 


证 明 ( 定 理 9.1.1 的 逆 ): 我 们 必须 证 明 , 对 于 功率 限制 为 P 的 高 斯 信道 中 的 一 个 (2 中 ,nn) 序 
列 , 当 Plo mt, 则 


R<C= F-log(1 + £) (9-35) 
考虑 满足 功率 限制 的 任意 一 个 (2 严 ,， n), 即 对 w=1, 2,…, 2%, WE 


K 


-3 
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1 n 
pi >) rlw) <P (9-36) 
i=t 


与 离散 情形 时 对 于 逆 定 理 的 处 理 一 样 , SW 11,2,°, 2") EW. TIRE W = 11， 
2,…,2 亚 | 上 的 均匀 分 布 诱导 出 输入 码 字 集 的 分 布 , 进而 诱导 出 输入 信号 字母 表 上 的 分 布 。 这 指 
定 了 关于 链 W>X (W) Y >W 的 一 个 联合 分 布 。 我 们 可 以 用 费 诺 不 等 式 得 到 


H(W | W)<1+ nRP = ne, (9-37) 
其 中 当 PO 0 时 e, 一 0。 从 而 ， 

nR = H(W) = I(W;W) + H(W | W) (9-38) 

<ICW;W) + ne, (9-39) 

< I(X"; Y") + ne, (9-40) 

= h(Y") — ACY” | X”) + ne, (9-41) 

= h(Y") — h(Z") + ne, (9-42) 

< DJACY,) - A(Z") + ne, (9-43) 

- SAY) - SACZ) + ne, (9-44) 

= > IXS YY) + ne, (9-45) 


EHX, = r; ( W), 而 W RAFI,2, 0,28] ERIS WES P, 表示 码 短 中 第 ; 列 的 平均 
功率 , 即 ， 


P, = pa Dri) (9-467 


那么 , 由 于 Y;=X; +Z EX 5Z, 是 相互 独立 的 , 则 Y; FADE EY; 是 已 + N。 因 此 , 由 正 
态 分 布 使 炉 达到 最 大 值 , 可 得 


h(¥;) < Flog2re( P, + N) (9-47) 
继续 考虑 相反 的 不 等 式 , 我 们 得 到 
nR SEAC Y;)-RA(Z;)) + nen (9-48) 
<D (Alog(2me( P; + N)) -log2neN ) + ne, (9-49) 
= DT boa 1 + =) + ne, (9-50) 
由 于 每 个 码 字 都 满足 功率 限制 ,自然 它们 的 平均 也 满足 功率 限制 , 因此 
4, <P (9-51) 


由 于 f(x) = Logt + z) 是 一 个 关于 z 的 四 函数 ,可 以 应 用 Jensen 不 等 式 获 得 


ii Pi\- A Asn Fi _ 
=> yloe(1 + Ẹ)< pg(1+ +>) (9.52) 
1 卫 
<5 log(1 + £) (9-53) 


于 是 ，R< 二 log(1+ 六 ) +e,, 6,20. Bilt, Sem T HATE NAA. 
注意 功率 限制 条 件 是 在 式 (9-46) 中 才 正式 进入 证 明 过 程 的 。 
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9.3 带宽 有 限 信 道 
对 于 在 无 线 电网 络 或 者 电话 线 上 进行 的 通信 来 说 , 通用 的 模型 是 带 白 噪 声 的 带宽 有 限 信 道 。 
这 是 一 种 时 间 连 续 信道 。 这 种 信道 的 输出 可 以 描述 为 
Y(t) = (X(t) + Z(t))* h(t) (9-54) 
其 中 X()RASHWRE, ZODeRBMARAHRE, h(t) A-TRAK RRA OHH, 
它 的 作用 是 将 大 于 W 的 所 有 频率 过 滤 掉 。 在 这 节 中 , 我 们 给 出 计算 这 种 信道 容量 的 简化 论述 。 
首先 论述 由 Nyquist [396] 和 香农 [480] 给 出 的 表示 定理 ， 它 说 明了 以 采样 频率 针对 一 个 带 
宽 有 限 信号 进行 采样 足以 从 这 些 样 本 中 重 构 信和 号。 直观 上 来 看 , 这 是 由 于 如 果 一 个 信号 的 最 大 
-BAE W, 那么 它 在 信号 最 大 截 频 的 半 周 期 时 间 内 不 会 发 生 很 大 的 变化 , 也 就 是 说 , 信号 在 小 于 
; 汤 秒 的 时 间 间隔 内 不 会 发 生 很 大 变化 。 
定理 9.3.1 假定 信号 f(1) 的 最 大 截 频 为 W, 即 对 所 有 大 于 WW 的 频率 ， 该 信号 的 谱 为 0。 
那么 该 信号 可 由 间 卫 为 2 包 秒 的 采样 序列 完全 决定 。 
证 明 : 设 F(w) 表 示 f(z) 的 傅 里 叶 (Fourier) 变 换 。 由 于 F(w) EMP SE — 2nWw<2nW 之 外 
为 0, 则 
f(t) = ai" F(w)e%deo (9-55) 


-1f 
= 入 | ， 


如 果 考虑 间隔 为 了 5 秒 的 采样 序列 ， 则 信号 在 采样 点 的 值 可 写 为 


f(s )= EJ Foi do (9-57) 


若 将 区 间 ( —2nW, 2xW ) 作 为 基本 周期 ， 上 述 等 趟 右边 也 是 信和 号 F(w) 的 视 为 以 [ 一 2xW, 2xW] 
为 第 一 主 周 期 的 周期 信号 的 傅 里 叶 级 数 展开 式 中 的 系数 。 因 此 , 采样 值 f (5%, ) 决 定 了 该 传 里 叶 


展开 式 的 系数 。 由 于 一 个 函数 可 由 它 的 傅 里 时 变换 所 惟一 决定 , 并 且 F(w) 在 带宽 W 之 外 为 0， 
因此 , 可 以 由 采样 序列 来 惟一 决定 该 信号 。 
考虑 函数 


™ Flw)ew dw (9-56) 
nW 


sin(2x Wt) _ 
Wi (9-58) 


该 函数 在 1=0 时 为 1, 在 上 = n QW, n 关 0 时 为 0。 这 个 函数 的 频谱 在 频带 (一 WW，W) 之 内 为 常 
数 , 在 该 频带 之 外 为 0。 现 在 定义 


g(t) = > Flap) sine( 2 - a (9-59) 


由 函数 sinc HERTA, o (2) KR W, BE =n QW 时 等 于 f(n/ 人 2W)。 由 于 满足 这 
些 限制 条 件 的 信号 只 有 一 个 , 则 必 有 g(z)= f(t)。 于 是 得 出 了 f(t) 可 由 采样 序列 重 构 的 一 个 显 
性 表达 式 。 . 口 

一 般 来 讲 ， 一 个 信号 具有 无 限 个 自由 度 , 即 信号 在 任意 采样 点 的 值 是 独立 选取 的 。 而 
Nyquist-Shannon 采样 定理 说 明 一 个 具有 最 大 截 频 的 信号 仅 有 每 秒 2W 个 自由 度 。 信 号 在 采样 点 
上 的 数值 可 以 独立 选取 , 这 些 特定 的 值 就 决定 了 整个 信和 号。 


since(t) = 


N 
~ 
© 
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如 果 一 个 信号 是 带宽 有 限 的 , 那么 在 时 间 域 上 , 它 就 不 可 能 再 是 有 限 的 。 但 是 我 们 可 以 考虑 
这 样 的 信号 : 它们 的 绝 大 部 分 能 量 都 集中 在 带宽 WA, 且 在 一 个 有 限时 间 区 间 内 , 例如 在 (0， 
个 ) 内 。 我 们 可 以 用 长 球 函数 (prolate spheroidal function) 组 成 的 基底 来 描述 这 些 信号 。 我 们 并 不 在 
此 深入 讨论 该 理论 的 细节 , 而 只 需 知 道 对 于 几乎 时 间 有 限 且 几乎 带宽 有 限 的 信号 的 集合 , 存在 大 
约 2TW 个 规范 正 交 函 数 基底 , 我 们 可 以 在 这 个 基底 下 用 坐标 来 描述 上 述 集合 内 的 任意 函数 。 想 
进一步 了 解 的 读者 , 可 以 参阅 Slepian, Landau 和 Pollak 的 一 系列 论文 [340, 341, 500). MA, A 
噪声 在 这 些 基 向 量 上 的 投影 构成 一 个 独立 同 分 布 的 高 斯 过 程 。 综 上 所 述 , 可 以 将 带宽 有 限 , 时间 
有 限 的 信和 号 视 作 一 个 2TW 维 向 量 空间 中 的 向 量 。 

接 下 来 回 到 带宽 有 限 信道 的 通信 问题 上 来 。 假 定 信 道 的 带宽 为 W, 可 以 使 用 1/2W 秒 的 时 
间 间 隔 的 采样 序列 来 表示 输入 和 输出 信号 。 每 一 个 输入 采样 值 被 噪声 污染 后 得 到 相应 的 输出 采 
样 值 。 由 于 噪声 是 高 斯 白 噪 声 , 所 以 每 噪声 的 采样 序列 是 一 个 独立 同 分 布 的 高 斯 随机 变量 列 。 


如 果品 声 具 有 功率 谱 密 度 No]2 瓦特 /赫兹 且 带 宽 为 W 赫兹， 那么 噪声 的 功率 为 ?2WW= 
NoW, 并 且 在 时 间 TA, 该 噪声 的 这 2WT 个 采样 值 中 的 任何 一 个 的 方差 均 为 No WT 及 WT = 
No2。 如 果 将 输入 信号 视 作 2WT 维 空间 中 的 一 个 向 量 , 可 以 看 到 接收 到 的 信号 围绕 着 输入 向 


量 服从 协 方差 矩阵 为 之 " 的 球状 正 态 分 布 。 
下 面 可 以 应 用 前面 得 出 的 关于 离 艇 时 间 高 斯 信道 的 理论 Se RL 
C=Flog(t+ =) ”比特 /传输 (9-60) 
假设 使 用 信道 的 时 间 区 间 为 [0，T]。 在 该 情形 下 ， 每 个 样本 的 功率 为 PT WT= PW, 每 样 
AHMET INOW = NO ,因此 每 样本 容量 是 








=Fle(1+ yay) 比特 /样本 (9-61) 








由 于 每 秒 内 存在 2W 个 样本 , 所 以 信道 的 容量 可 以 重新 写成 
C=W og(1 + new) 比特 / (9-62) 


上 述 方程 是 信息 论 中 最 著名 的 公式 之 一 。 它 利用 噪声 谱 密度 No BAS ait) MDR P( 瓦 特 ) 给 
出 了 一 个 带宽 有 限 的 高 斯 信道 的 容量 。 

关于 信道 争论 的 一 个 更 准确 的 版 本 见 [576], 它 考虑 当 信号 在 带宽 为 W 的 情况 下 , 只 考虑 能 
量 在 信道 的 带宽 之 外 很 小 , 以 及 在 时 间 段 (0, T) 之 外 的 能 量 也 很 小 。 也 就 是 说 , 当 处 于 带 外 的 能 


量 趋 于 0 时 上 面 所 说 的 容量 也 可 以 达到 。 
如 果 令 式 (9-62) 中 的 Wo, 则 可 以 得 到 
E C = £ Alge ”比特 / 秒 (9-63) 
它 是 具有 无 限 带宽 ， 功率 为 P, ARDER No2 的 信道 的 容量 。 所 以 ,对 于 无 限 带宽 信道 ， 
信道 容量 与 功率 成 线性 增长 关系 。 


例 9.3.1( 电 话 线 ) 为 了 实现 许多 信道 的 多 路 传输 , 往往 限制 电话 信号 的 带宽 为 3300 Hz。 
在 式 (9-62) 中 使 用 3300 Hz 的 带宽 和 33 dB( 即 P/Ne 克 =2000) 的 SNR( 信 噪 比 ) , 我 们 发 现 电 话 信 
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道 的 容量 大 约 为 36 000 比特 / 秒 。 实 际 的 调制 解 调 器 可 以 在 电话 信道 的 双方 向 上 达到 至 多 33 600 
比特 / 秒 的 传输 率 。 在 现实 的 电话 信道 中 , 存在 着 许多 其 他 的 因素 , 例如 串 线 , 干扰 , 回声 和 非 平 
坦 信道 等 。 为 达到 上 述 的 容量 , 必须 对 这 些 因素 进行 补偿 。 

利用 一 个 纯 数字 信道 来 实现 网 络 中 服务 器 到 终端 电话 开关 之 间 的 转换 , 可 以 使 V.90 式 调 制 
解 调 器 在 电话 信道 的 一 个 方向 上 达到 56 kb/s。 在 这 种 情况 下 , 损害 仅 在 于 数字 到 模拟 之 间 的 转 
换 和 从 开关 传送 到 用 户 的 铜 线 连接 噪声 。 这 些 损害 减少 了 最 大 比特 传输 率 ,， 从 在 网 络 中 数字 信 [273 
号 的 传输 速率 64 kb/s 锐 减 到 电话 线路 中 的 56 kb/s ( 且 是 最 好 情形 )。 

连接 家 庭 与 程控 交换 器 的 铜 线 实 际 可 以 获得 几 兆 替 的 带宽 希 求 , 这 取决 于 线路 长 度 。 频 率 
响应 在 这 个 频带 上 是 完全 不 平坦 的 。 如 果 整 个 带宽 都 被 利用 , 那么 通过 这 种 信道 每 秒 可 以 传输 
几 兆 。 一 些 方案 , 如 DSL (数字 专用 线 ) 通过 在 电话 线 的 两 端 安装 上 特殊 的 装置 (不 像 调 制 解 调 ， 
在 电话 开关 中 不 需要 调制 ) 可 以 达到 这 个 传输 水 平 。 


9.4 并 联 高 斯 信道 


EAT, 我 们 考虑 具有 一 个 公共 功率 限制 的 个 独立 的 并 联 高 斯 信道 。 我 们 的 目标 是 将 
总 功率 分 配 于 这 些 信道 之 中 以 使 容量 达到 最 大 。 该 信道 是 可 加 高 斯 非 白 噪声 信道 的 模型 , 其 中 每 
个 并 联 的 组 件 代 表 一 个 不 同 的 频率 。 
假设 有 一 组 如 图 9-3 所 示 的 并 联 高 斯 信道 。 每 个 信道 的 输出 是 输入 与 高 斯 噪声 之 和 。 对 于 信 
Š j, Zi 
Y, = X/+Z.j = 1,2,,k,- (9-64) 
其 中 Xi Y, 
Z; ~ N(0,N;) (9-65) : p : 
并 且 假 设 噪声 在 信道 与 信道 之 间 是 相互 独立 的 。 假定 在 所 使 用 的 总 功率 
方面 存在 一 个 公共 的 功率 限制 , B, x, r, 


EX; <P (9-66) 图 93 并 联 高 斯 信道 
我 们 希望 将 功率 分 配 于 各 信道 之 中 以 使 总 容量 达到 最 大 。 
信道 的 信息 容量 C 为 
C = max I(X1, X230, Xk; Yis Yoo» Ye) (9-67) |274 


Karpa): SEXP 
我 们 来 计算 当 该 信道 达到 信息 容量 时 所 应 服从 的 分 布 。 信 息 容量 是 所 有 可 达 码 率 的 上 确 界 , 这 
一 事实 的 证 明 与 单个 高 斯 信道 的 容量 定理 的 证 明 方 法 相同 , 故 略 去 。 
由 于 2Z1,，2Z2,，… ,24 是 相互 独立 的 ， 
了 (XI X230 Kes YY Ye) 
= ACY,, You, Y) — ACY), Yor Yh | Xi, X27, Xe) 
= ACY,, Yoo, Yp) — ACZy, Z2; Zp | Xi, X230, Xa) 


= ACY,, Your's Ye) — A(Zy, 225° Ze) (9-68) 
= AC Yr Yo, Ya) — DACZ,) | (9-69) 
< DUACY;) - h(Z;) (9-70) 


P. 


<> Fog {1 +x) (9-71) 
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H P SEX, YPP. ESEU TRIER RA 


P, 0 … 0 
0 P，… 0 

(XoXo XÐ SN o | (9-72) 
0 0 … P, 


由 此 , 问题 简化 为 在 满足 约束 条 件 闷 P; = 已 下 , 寻求 一 个 功率 分 配方 法 使 得 容量 达到 最 大 。 
这 是 一 个 标准 的 最 优化 问题 , 可 以 利用 拉 格 朗 日 乘 子 法 得 到 解决 。 相 应 的 函数 为 





J(Py +P.) = D7 log( 1+ 5!) +A CDP). (9-73) 
对 PRS, 我 们 有 
Spoytaso | (9-74) 
或 者 
P,=0-N, (9-75) 


然而 , 由 于 P; 必须 非 负 ,所 以 , 并 不 总 能 找到 一 个 如 此 形式 的 解 。 这 样 , 可 利用 库 恩 - 塔 克 条 件 
来 验证 如 下 解 


P; = (一 JJ) (9-76) 
使 得 容量 达到 最 大 的 分 配方 法 ,其 中 v 的 选取 满足 
Slv- N; =P (9-77) 
这 里 (z)+ 表 示 对 zx 取 正 的 部 分 : 
+. jz r20 
(x)= 0 #2<0 . (9-78) 


这 个 解 可 用 图 9-4 中 的 图 形 说 明 。 纵 向 层 表明 了 不 同 信道 的 噪声 等 级 。 由 于 信和 号 功率 由 零 

276| ”开始 增加 , 先 将 功率 分 配给 噪声 水 平 最 低 的 信道 。 当 进一步 增加 可 获得 的 功率 时 , 一 部 分 功率 分 

配给 噪声 更 大 的 信道 。 总 功率 在 各 个 小 隔断 中 分 配 的 过 程 类 似 于 水 在 容器 中 的 分 配方 式 。 因 此 ， 
这 个 过 程 有 时 候 称 作 注 水 法 (water filling) 。 

功率 | 







v 


N, 








信道 1 信道 2 信道 3 
图 9-4 并 联 信道 的 注水 法 
9.5 高 斯 彩色 噪声 信道 
在 9.4 节 中 , 考虑 了 一 组 并 联 独立 高 斯 信道 的 情况 ,其 中 不 同 信道 的 噪声 样本 是 相互 独立 


的 。 现 在 来 考虑 噪声 互相 相关 的 情形 。 这 不 仅 代表 了 并 联 信道 情形 , 也 代表 了 有 记忆 高 斯 噪声 
信道 的 情况 。 对 于 有 记忆 的 信道 , 可 把 连续 n 次 使 用 同一 个 信道 的 效果 视 作 使 用 一 次 由 噪声 相 
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关 的 n 个 信道 并 联 所 得 的 信道 。 与 9.4 节 中 一 样 , 仅 计算 该 信道 的 信息 容量 。 
设 Kz 为 噪声 的 协 方差 阵 ，Kx 为 输入 信号 的 协 方差 阵 。 那 么 , 对 于 输入 信号 的 功率 限制 可 
以 写 为 
P DEX? < P (9-79) 
或 等 价 地 
+ (Kx) <P (9-80) 


不 同 于 9.4 节 , 这 里 的 功率 限制 依赖 于 n, 因此, 我 们 不 得 不 对 每 个 n 单独 计算 容量 。 
与 独立 信道 情形 相同 , 我 们 有 
TXT X25, Xa Vis Yous Yp) = ACY, You's Yn) — h( Zi, Z230, Za) (9-81) 
这 里 A(Z,,Z),°°,Z, HRD RE, 而 不 依赖 于 输入 信号 分 布 的 选择 。 所 以 , 计算 信道 
容量 等 价 于 将 A( Yi, Yoe, YORKIE. 4 Y 服从 正 态 分 布 时 , 输出 信号 的 粮 达 到 最 大 , 这 情 
形 在 输入 分 布 是 正 态 分 布 时 达到 。 由 于 输入 信号 和 噪声 是 相互 独立 的 , 所 以 , 输出 Y 的 协 方差 
Sa ME Ky = Kx + Kz, BK 


h (Yi, Your's Yp) = 5 log (2me)" | Kx + Kzl) (9-82) 


于 是 , 问题 简化 为 在 Kx 的 迹 约束 条 件 下 , 选取 Ky 使 得 | Kx + Kz| 达 到 最 大 。 为 达 此 目的 , 将 
Kz 分 解 成 对 角 型 ， 


Kz = QAQ ,其 中 QQ = I (9-83) 
那么 
1Kx+Kz|=|Kx+QAGQ (9-84) 
=|Q|1Q'KxQ + ATGI (9-85) 
=|QK,Q+ Al (9-86) 
=|A+Al . (9-87): 
其 中 A= QIKxQ。 由 于 对 任意 矩阵 B 和 C， . 
tr(BC) = tr(CB) (9-88) 
ny 
tr(A) = tr( QEKxQ) (9-89) 
= tr(QQ‘Kx) (9-90) 
= tr( Kx) (9-91) 


于 是 问题 简化 为 在 迹 约束 条 件 tr(4A) 委 imP 之 下 , 求 |A+A| 的 最 大 值 。 
现在 利用 第 8 章 中 提 及 的 阿达 马 不 等 式 。 此 不 等 式 说 明 任意 正定 阵 K 的 行列 式 一 定 小 于 它 
的 对 角 元 素 的 乘积 ,， 即 
IKI< [[k: (9-92) 
当 且 仅 当 和 矩阵 为 对 角 型 等 号 成 立 。 于 是 ， 
JA+AI< [] (Ag + a) (9-93) 
当 且 仅 当 A 为 对 角 型 等 号 成 立 。 由 于 A 受到 迹 的 约束 ， 
4 SAG <P (9-94) 
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BA, 之 0, 所 以 , ][ (As + a) 的 最 大 值 在 


Ag + a; = v (9-95) 
时 达到 。 然 而 , 考虑 到 约束 条 件 , 不 可 能 总 是 存在 正 的 A; 满 足 上 述 方程 。 在 不 满足 的 情形 下 ， 
根据 标准 库 恩 - 塔 克 条 件 可 以 证 明 最 优 解 对 应 于 取 
A; = (v-à) (9-96) 
时 的 解 。 其 中 选取 v (EEA; = nP。 此 时 A 的 值 使 Y ARRIRA, 因此 , 互信 息 达 到 最 大 。 
我 们 可 以 从 图 9-4 中 看 出 上 述 方法 与 注水 法 之 间 的 联系 。 
考虑 这 样 一 个 信道 , 它 的 可 加 高 斯 噪声 构成 一 个 具有 有 限 维 协 方差 阵 KY? 的 随机 过 程 。 如 
果 该 过 程 是 平稳 的 , 则 协 方差 阵 是 特 普 利 茨 (Toeplitz) 和 矩阵 , 并 且 当 n> oot BRAT READ MR 
限 。 而 特征 值 在 实 轴 上 凝聚 出 来 的 包 络 函数 趋 近 于 该 随机 过 程 的 功率 谱 [126]。 因 此 , 在 频 域 中 ， 
也 可 以 得 到 相应 的 注水 法 。 Fw)” 
因此 ,对 于 噪声 为 一 个 平稳 随机 过 程 的 信道 而 
A, 输入 信号 应 选 为 一 个 高 斯 过 程 使 得 在 噪声 的 频 
谱 小 的 频率 上 它 的 频谱 大 。 图 9-5 说 明了 这 个 情 
况 。 可 以 证 明 一 个 噪声 功率 谱 为 N( 了 ) 的 可 加 高 斯 
噪声 信道 的 容量 为 [233] 


c= F $el! + Co ag (9-97) 





3 y 


其 中 = 的 选取 满足 O-N df= Po 图 9.5 频 域 注水 法 


9.6 带 反馈 的 高 斯 信道 


在 第 7 章 中 证 明了 反馈 不 会 增加 离散 无 记忆 信道 的 容量 , 这 对 减少 编码 或 译 码 复杂 度 很 有 帮助 。 
对 于 可 加 白 噪声 信道 ,上述 结论 依然 成 立 。 与 离散 情形 一 样 , 反馈 不 增加 无 记忆 高 斯 信道 的 容量 。 

然而 , 如 果 信道 有 记忆 ， 即 噪声 在 两 个 不 同 的 瞬间 是 相关 的 , 反馈 确实 会 增加 容量 。 不 带 反 
馈 的 容量 可 以 用 注水 法 计算 , 而 带 反馈 的 容量 , 还 没有 给 出 任何 清晰 的 刻画 。 在 这 节 中 , 我 们 将 
根据 噪声 Z 的 协 方差 阵 来 给 出 这 种 容量 的 表达 式 , 证 明 关于 该 容量 表达 式 的 逆 定 理 。 然 后 , 推导 
出 因 反馈 引起 的 容量 增加 的 一 个 简单 的 界 估计 。 

如 图 9-6 所 示 一 个 带 反馈 的 高 斯 信道 。 信 道 的 输出 信号 Y; 为 

Y, = X; + Z, Z ~ N(O,KY”) (9-98) 

反馈 允许 信道 的 输入 依赖 于 过 去 的 输出 值 。 Z 

带 反馈 的 高 斯 信道 的 (2 ,n) 码 由 映射 序列 x(W, Y?) 
构成 , 其 中 WE 11, 2,…, 2 下 | 是 输入 消息 ，Y "是 过 去 的 输 x Y, 
出 值 序列 。 所 以 , (W, ) 是 一 个 码 函数 而 非 一 个 码 字 。 除 此 | | 


之 外 , 要 求 该 编码 满足 一 个 功率 限制 ， 图 9.6 ” 带 反馈 的 高 斯 信道 
E[4 >) zw, Yd) |<P, we 全 ,2，…，2 亚 | (9-99) 


其 中 期 望 关于 所 有 可 能 的 噪声 序列 取 值 。 
利用 输入 X 和 噪声 Z 的 协 方差 阵 刻画 高 斯 信道 的 容量 。 由 于 反馈 的 存在 ，X" 与 Z 不 再 独 
立 , 因而 ，X 依赖 于 过 去 的 Z 值 。 在 下 一 节 中 , 我 们 证 明 带 反馈 的 高 斯 信道 的 逆 定 理 , 并且 证 
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BA, 如 果 将 X 取 为 高 斯 的 ,能 够 达到 容量 (在 书 中 并 无 对 应 的 内 容 。 一 一 译 者 注 )。 
下 面 针 对 有 无 反馈 两 种 情况 , 给 出 信道 容量 的 非 正式 描述 。 
1. 带 反 馈 。 对 于 带 反馈 的 时 变 高 斯 信道 , 其 以 比特 /传输 为 单位 的 容量 C, ,ps 是 





| KY¥?z | 
一 - 281 
Cir = Jp slog | KS | (9 100) 
其 中 , 最 大 值 是 在 所 有 满足 如 下 形式 
i~1 
X, = DX bZ + Vi,i=1,2,.,n (9-101) 
jul 


WX 的 集合 中 取得 的 ,上 式 中 V BZ 相互 独立 。 为 了 验证 在 式 (9-101) 上 所 取 的 最 大 
值 不 失 一 般 性 , 注意 使 焕 达 到 最 大 的 X* + r 的 分 布 是 高 斯 的 最 大 燃 分 布 。 由 于 Z 也 是 
高 斯 的 , BTL, CX", Z"，X"+ 7") 是 一 个 联合 高 斯 分 布 且 关于 它 的 分 布 可 达到 式 (9-100) 
中 的 最 大 值 。 又 由 于 Z =Y -X, 那么 由 X' SY 导出 的 大 多 数 一 般 联合 正 态 分 布 就 
是 式 (9-101), 其 中 V 起 到 了 更 改 这 个 过 程 的 作用 。 用 X= BZ+ VAY=X+Z 重新 改 
写 式 (9-100) 和 式 (9-101), 我 们 可 得 

1, |I(B+IDKY(B+ D+ Ky! 

Cn,FB = max 7, log | KỌ | 

其 中 最 大 值 取 自 所 有 非 负 定 和 矩阵 Ky 以 及 满足 

tr(BKY?B! + Ky) S nP (9-103) 
的 严格 下 三 角 和 矩阵 B. PEKAT, BEA 0o 

2. 不 带 反 馈 。 不 带 反 馈 的 时 变 高 斯 信道 的 容量 C, 为 
1, [天 如) + KẸ | 





(9-102) 





C, = Lm 5 _ KP | (9-104) 
这 可 以 简化 为 K 多 ) 的 特征 值 1%4”| 上 的 注水 过 程 。 于 是 ， 
C, = = 去 el(1 + | (9-105) 
其 中 (y)' =maxiy, 0}, 且 对 4 的 选取 满足 
Da- am) = (9-106) [282 


现在 我 们 来 证 明 带 反馈 高 斯 信道 的 容量 的 上 界 。 这 个 上 界 实际 上 是 可 达 的 [136], 因此 就 是 
信道 容量 , 但 是 我 们 不 在 这 里 给 出 证 明 。 
定理 9.6.1 对 于 带 反 馈 的 高 斯 信道 , 使 得 Pl"->0 的 任意 (2"™， nn ) 码 的 码 率 R, 满足 
R, <Cymt & (9-107) 
其 中 当 neor, e0, HP Cp 在 式 (9-100) 中 定义 。 
证 明 : © W 在 2 中 上 是 均匀 的 , 因此 , 误差 概率 PLO 满足 费 诺 不 等 式 ， 


H(W1W)<1+ nR,P\” = ne, (9-108) 

其 中 当 Pl 一 0 时 ，e, 一 0。 此 时 ,可 以 对 码 率 界 定 如 下 : 
nR, = H(W) (9-109) 
=1(W;W)+H(WIW) (9-110) 
<I(W;W) + ne, (9-111) 


<I(W; Y") + ne, (9-112) 
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= SICW; Y,| Y!) + ne, (9-113) 
® »(aCY,| Yi- ACY, | W, YE, X;, X71, Z71)) + ne, (9-114) 
® (nC y;,| YEH- AC ZW, YoU, X; XE, 271)) + ne, (9-115) 
© (ACY; | Y7!) —A(Z,|Z-1)) + ne, (9-116) 
= h(Y") — A(Z") + ne, (9-117) 


其 中 (a) 是 由 X; 为 W 和 过 去 的 Y; 的 函数 以 及 Zi ! 等 于 YN XE, (b) 可 由 Y;= X; + Z, 
和 有 h(X+Z|IX)=h(Z|X) 得 到 ,(c) 是 因为 在 给 定 ZN, Zi 与 (W，Y ,XX) 是 条 件 独立 的 。 
对 上 面 不 等 式 的 两 边 同 除 n, 再 由 正 态 分 布 使 粹 达到 最 大 的 性 质 , 承接 前 面 不 等 式 链 , 可 得 





R, < FACY") -A(Z)) + e, (9-118) 
lg! EE (9-119) 
Sn E Kp e - 
< C, + & (9-120) 0 


我 们 已 经 证 明了 由 协 方差 阵 KK 她 z 表 达 的 带 反馈 的 高 斯 信道 容量 的 一 个 上 界 。 现 在 来 推导 
由 K MKP 表达 的 带 反馈 的 信道 容量 的 上 界 , 从 而 可 以 导出 由 不 带 反馈 信道 容量 的 界 估 计 。 
为 记号 简便 起 见 , 省 去 协 方差 阵 符号 中 的 上 标 no 

首先 证 明 有 关 和 矩阵 和 行列 式 的 一 系列 引 理 。 

引 理 9.6.1 设 XX 和 Z 是 n 维 随 机 向 量 , 则 





Kyiz + Ky-z = 2Kx + 2Kz (9-121) 
证 朋 : 

Kxyz = E(X + Z)(X 4 Z)' (9-122) 
= EXX + EXZ + EZX + EZZ (9-123) 
= Ky + Ky, + Kx + Kz (9-124) 

类 似 地 ， 
Kx-z = Kx- Kø - Kx + Kz (9-125) 
将 以 上 两 个 等 式 相 加 即 可 完成 证 明 。 oO 


引 理 9.6.2 对 于 两 个 nXn HERTHA PB, 如 果 A 一 B 是非 负 定 的 ， 那么 |A| 宇 |B|。 
证 明 : 令 C=A-B。 由 于 B 和 C 是 非 负 定 的 , 可 以 将 它们 看 作 是 协 方差 矩阵 。 考虑 两 个 独 
AER X,~N(0, BYMIX,~N (0, C) © Y=Xi +k, W 


h(Y) S ACY IX) (9-126) 
= h(X, | X) (9-127) 
= h(X,) (9-128) 


Fe AY ARERR EE FD ES, 最 后 的 等 式 可 由 X 和 X 的 相互 独立 性 得 
到 。 将 正 态 分 布 的 微分 炳 计算 公式 代 人 上 式 中 , 我 们 得 到 


Flog(2ne)” | A i> A log(2ne)” | Bl (9-129) 


这 等 价 于 欲 证 明 的 引 理 。 O 
3| 9.6.3 FHA n 维 随机 向 量 X FZ, 
| Kxaz IX 2" | Ky + Kz | (9-130) 
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WEAR: 由 引 理 9.6.1 知 ， 
2(Kx + Kz) 一 天 x+z 一 Kx-z 之 0 (9-131) 
其 中 记号 A20 表示 A 是 非 负 定 的 。 因 此 , 利用 引 理 9.6.2, 我 们 有 
| Kxiz I< 2( Kx + Kz) [= 2" | Kx + Kz | (9-132) 
J BN BF aK E AA BZA HE. 口 
引 理 9.6.4 对 两 个 任意 非 负 定 甜 阵 A 与 B, ARONA, 
|[AA+(1-ADBISIA!* 1 BI? (9-133) 
证 明 : 4 X ARM ,,(0, A), YRAN ,(0, B), CZ AWARE MOLAS 
- |x 4@=1 (9-134) 
ly 当 0=2 i 
其 中 
_ 11 概率 为 4 
9 |。 MENIA (9-135) 
Bi X, YR 9 独立 , 那么 
Kz = AA + (1 -4)B (9-136) 
我 们 观察 如 下 不 等 式 系列 
F In(2ne)” | aA + (1~A)BI1 = A(Z) (9-137) 
> h(Z1 6) (9-138) 
= An(X) + (1 — ADACY) (9-139) 
= $In(2re)" LAI) Bib (9-140) 


HPR—-TPASRHMDHEARAE HARA HN AE. ERER TU. O 


定义 “ 称 随机 向 量 X" 57 是 因果 关系 ,如 下 面 等 式 成 立 
arse) = F JT fly | a2) 


注意 , 反馈 码 必定 导出 因果 关系 (X”,， Z) 
引 理 9.6.5 WRX 与 Zr 是 因果 关系 ,那么 
hX- Z") > h(Z") 
VAR 
| Kx-z IÈI Kz | 
成 立 。 其 中 Kx_z 与 Kz 分 别 是 X" - Zr 与 Zr 的 协 方差 矩阵 。 
证 明 : 首先 观察 下 列 系列 不 等 式 
A(X- 2") 2 Sh(X;- Zl X- Z) 
SDA- Z| X,27,X) 
HAZ X, Z, X,) 
2 SACZ] ZD 
Sh(Z) 


(9-141) 


(9-142) 


(9-143) 


(9-144) 
(9-145) 
(9-146) 


(9-147) 
(9-148) 
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其 中 , 等 式 (a) 由 链 式 法 则 推出 ; (b) 由 条 件 h(A1B) 宇 h(A1B,C) 推 出 ; (c) 由 X 的 条 件 决定 论 
以 及 微分 粮 的 平移 不 变性 得 出 ; (d) 由 X 与 Z 的 因果 关系 推出 ; 最 后 (e) 再 次 由 链 式 法 则 推出 。 

最 后 , BEX 57 是 因果 关系 且 伴随 并 -Z 527 的 协 方差 矩阵 分 别 为 Kx_z 与 Kz, 那么 
显然 存在 具有 相同 的 协 方差 矩阵 的 多 元 正 态 (因果 关系 的 ) 随 机 向 量 对 X” "与 名。 Fé, Ast 
(9-148), 我 们 有 


Fin(2ne)" | Kx-z 1 = h(&"- 2") (9-149) 

> h(Z") (9-150) 

= tin(2ne)" | Kz | (9-151) 

从 而 , 式 (9-143) 得 证 。 口 


我 们 现在 从 一 个 角度 来 证 明 反馈 能 够 增强 可 加 高 斯 非 白 噪 声 信 道 的 信道 容量 至 多 半 个 比特 。 
定理 9.6.2 
1 








Cw. +> 比特 /传输 (9-152) 
证 明 : 结合 所 有 的 引 理 , 我 们 有 
Cm < ex, +o eT ee 7 (9-153) 
< ax, + log ar Kii | (9-154) 
= mex, Flog Ae + + (9-155) 
<C, + 4 比特 E. (9-156) 
其 中 的 不 等 式 分 别 可 由 定理 9.6.1、 引 理 9.6.3 和 不 带 反馈 的 容量 定义 得 到 。 口 


我 们 现在 证 明 平 斯 克 (Pinsker) 的 观点 ， 即 反馈 至 多 能 使 彩色 噪声 信道 的 容量 加 售 。 
定理 9.6.3 C, S2C, 
明 : 只 要 能 够 证 明 如 下 不 等 式 

















1 1 | Kx+z | 1 | Kx + Kz | 
7 an 7K, S 2n 1 Ke (9-157) 
就 足够 了 ,因为 有 了 它 之 后 , 先 对 右边 取 最 大 ， 然后 再 对 左边 取 最 大 就 得 到 了 
于 Coms C， (9-158) 
检验 下 列 不 等 式 
1 1 
=K + = Ky- 
1 | Kx+ Kz! @ 1 2 X+Z 2 KZ 
2a 8 K, ~ 2nl% | Ky (9-159) 
中 4 | Kxsz (2 | Kx z |2 
> 5 log : Ke (9-160) 
®© 1 | Kxrz IŻ | Kz 12 
S Llog K (9-161) 
电工 | Kx+z | 
ed iog kA (9-162) 


其 中 , (a) 由 引 理 9.6.1 推出 ; (b) 恰 为 引 理 9.6.4 的 不 等 式 ; (c) 由 引 理 9.6.5 在 因果 关系 假设 之 
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下 推出 。 口 
总 之 , 我 们 已 经 证 明了 当 增加 反馈 之 后 , 高 斯 信道 容量 的 增加 量 不 会 超过 半 个 比特 , 或 者 不 
会 超出 两 倍 。 也 就 是 说 , 反馈 虽然 有 帮助 , 但 并 不 很 大 。 


习题 
9.1 在 给 出 立 上 带 两 个 独立 观察 的 信道 。 设 在 给 定 XP, Yi 和 Y 条 件 独立 且 条 件 同 分 布 。 
(a) 证 明 I(X;Y, ¥2) =21(X3 Y1) — I( Y1; Y2)0 


(b) 推断 信道 








N 
© 
© 
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9.2 


9.3 


9.5 


9.6 


9.7 








的 容量 不 超过 信道 


考虑 在 X 上 带 两 个 相关 观察 的 普通 高 斯 信道 , 即 了 = (Yi, Yz), 其 中 


的 容量 的 两 倍 。 
双 输 出 的 高 斯 信道 


Y,=X+2, (9-171) 
Y,=X+Z, (9-172) 
并 且 对 X 的 功率 限制 为 P, UR(Z,,Z.)~N2(0,K), HP 
K= [~ ~e] (9-173) 
N, N 
分 别 计算 满足 如 下 条 件 的 容量 C 
(a) p=1 
(b) p=0 


(c) p=~1 

输出 功率 约束 。 考 虑 期 望 输 出 功率 约束 条 件 PP 的 可 加 高 斯 白 噪声 信道 , BN, Y=X+Z, 
Z~N(0,o*), Z 和 XX 相互 独立 , HAE YSP., REEERE. 

指数 噪声 信道 。Y, = X,+Z,, 其 中 Z, 是 服从 均值 为 4 的 i.i.d. 噪声 为 指数 分 布 。 假 设 信 号 


有 一 个 平均 约束 ( 即 EX;<X)。 证 明 该 信道 的 容量 是 C=log(1 +4), 
讲授 信道 。 考 虑 一 个 可 加 噪声 衰退 信道 


0 


Y=XV+Z 

其 中 Z 是 可 加 噪声 ，V 是 表示 衰退 的 随机 变量 , 并 且 Z 与 V RX 都 相互 独立 。 证 明 IX; 
YIV)SU(X; Y), 并 讨论 衰退 因子 V 能 够 提高 信道 容量 。 

并 联 信 道 与 注水 法 。 考 虑 一 对 并 联 高 斯 信道 : 




















Y, xX Zi 
= (9-174) 
Yz X2 \Z2 
其 中 
Z 2 0 
1) ado, § | (9-175) 
Z2 0 «6 








同时 满足 功率 限制 E(X + X3)<2P. [RE ci >of, MWR P 为 多 大 时 , 该 信道 的 性 质 不 
再 像 一 个 噪声 方差 为 o 的 单个 信道 , 而 开始 像 一 对 信道 ? 
多 路 高 斯 信道 。 考 虑 一 个 有 功率 约束 P 的 可 加 高 斯 噪声 信道 , 在 该 信道 中 , 信号 通过 两 条 
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9.8 


9.9 


不 同 的 路 径 。 在 天 线 的 一 端 接收 到 的 信号 是 由 两 条 路 径 上 传输 过 来 的 品 声 污染 了 的 信号 释 
加 而 成 的 。 


Z 


(a) 当 Zi 与 2 为 联合 正 态 分 布 ,其 协 方差 矩阵 为 
a pa? 
x= | ,| 
求 出 该 信道 的 容量 。 
(b) 对 于 p=0, p=1, p= -1 三 种 特殊 情形 , 信道 容量 分 别 是 多 少 ? 
并 联 高 斯 信道 。 考 虑 如 下 的 并 联 高 斯 信道 : 


Z1~N(0, N,) 


x >( ) = 


Z, ~N (0, N,) 


x, (+) -y 


其 中 ZI~ 人 (0,Ni) 与 ZN (0, N WLR, 而 Y, = X; + 2Z;。 我 们 希望 将 

功率 分 配给 两 个 并 联 信道 。 选 取 固 定 的 p 和 B,, 考虑 全 部 代价 的 约束 条 件 B1Pi + hP 

8, 其 中 PP; 是 分 配 到 第 i 个 信道 的 功率 而 B 是 在 该 信道 中 单位 功率 的 代价 。 于 是 , Pi1 宕 0， 

P, 之 0 的 选取 受到 代价 PHAR. 

(a) B 取 何 值 时 信道 停止 单 信道 角色 而 开始 起 到 双 信 道 的 作用 ? 

(b) 估计 信道 容量 , 求 出 在 61 =1, B=2,N1=3, N=2 以 及 8=10 是 达到 信道 容量 的 PP，) 
和 Pao 

向 量 高 斯 信道 。 考 虑 向 量 高 斯 噪声 信道 Y=X+Z, 其 中 X= (Xi, X2, X3), Z = (Zi1,22， 

Z3), Y=(¥1,¥2, Y3),E || XIl?<P, H 


1 0 1 
Z~ 0, 0 1 1 
1 工 


求 出 信道 容量 。 管 案 或 许 有 点 意外 。 





9.10 照片 胶片 的 信道 容量 。 这 是 一 个 顺手 可 得 的 具有 漂亮 答案 的 问题 。 我 们 感 兴趣 的 是 电影 


胶片 的 信道 容量 。 胶 片 是 由 碘 酸 银 晶 体 按照 泊 松 (Poisson) 分 布 组 成 ,每 平方 英寸 的 人 粒 
子 密度 函数 已 知 。 胶 片 感光 不 需要 知道 碘 酸 银 粒 子 的 位 置 。 于 是 ， 当 其 感光 后 , 接收 者 看 
到 的 只 是 曝光 了 的 碘 酸 银 粒子 。 附 着 在 细胞 上 且 暴 露 的 颗粒 假设 落 在 或 这 或 那 而 导致 空 


N 
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9.11 


9.12 


9.13 


9.14 


RIE 








白 出 现 。 没 有 被 感光 的 碘 酸 银 粒子 与 空位 置 仍 是 空白 。 现 在 的 问题 是 : 这 种 胶片 的 信道 
容量 是 多 少 ? 

我 们 做 如 下 的 假设 ,在 胶片 的 区 域 dA 打上 非常 精细 的 格子 将 其 划分 成 为 许多 细 
胞 ,假设 每 个 细胞 中 至 多 一 个 碘 酸 银 粒 子 并 且 不 在 细胞 的 边界 上 。 于 是 ,胶片 可 以 看 作 
是 一 系列 具有 交叉 概率 1 - 2dA 的 并 联 二 元 不 对 称 信道 。 通 过 计算 该 二 元 不 对 称 信道 
的 容量 关于 dA 的 一 阶 近似 (这 是 必要 的 近似 )。 我 们 可 以 计算 出 该 胶片 的 信道 容量 ( 量 纲 
为 比特 /平方 英寸 )。 显 然 , 它 与 A 成 比例 。 问 题 是 : 该 比例 常数 是 多 少 ? 

如 果 照明 器 和 接收 器 知道 都 知道 晶体 的 位 置 ,那么 答案 将 是 ) 比特 /单位 面积 。 
高 斯 互信 息 。 假 设 (X，Y, Z) 是 联合 高 斯 分 布 且 X_= Y-=Z BR TORT RE, OX 
ALY 的 相关 系数 为 p1, 而 Y 和 Z 有 相关 系数 为 pz。 求 I(X;2)。 
时 变 信道 。 一 列 火车 匀速 驶 离 火车 站 ,接收 到 的 信号 能 量 随时 间 衰 减 为 1/i?。 在 时 间 ; 接 
收 到 的 总 体 信号 为 

i= 1x, +Z; 
其 中 Z., Z, -XBA N(0,N) 的 ii.d.， 分 组 长 度 为 n 时 的 传送 器 约束 为 
LY Alw) SP,w E 1,2,1,2] 

利用 费 诺 不 等 式 , 证 明 该 信道 容量 是 0。 
反馈 信道。 令 (21,Z2) 一 N(0,K),K=| “| 。 分 别 来 出 在 迹 (功率 ) 约 束 u( Kx)<2P 情 
形 下 有 与 没有 反馈 的 二 log .人 得 的 最 大 值 。 
可 加 噪声 信道 。 考 虑 信道 Y=X+Z, 其 中 X 是 功率 约束 为 P 的 发 射 信号 , Z 是 独立 可 加 


噪声 ，Y 是 接收 到 的 信号 , S 


9.15 


9.16 


0 。 概率 为 1 
Z= 

2 概率 为 广 
其 中 Z*~N(0,N). Alt, Z 有 一 个 混合 分 布 , 即 由 高 斯 分 布 与 一 个 在 0 点 概率 密度 为 1 
的 退化 分 布 混合 而 成 。 
(a) 这 个 信道 的 容量 是 多 少 ? 这 将 是 一 个 愉快 的 惊喜 。 
(b) 你 怎样 得 到 信道 的 容量 ? 
离散 输入 ,连续 输出 信道 。 令 Pri X=1}=p,PriX=0|=1-pURY=X+Z, 其 中 Z 是 
区 间 [0,a],a>>1 上 的 均匀 分 布 , BZ 与 X 相互 独立 。 
(a) HE I(X;Y)=H(X)-H(X| Y). 
(b) 通过 CX; Y)=ACY) — ACY |X) RUE I(X;Y). 
(c) 通过 求 关 于 p 的 最 大 值 来 计算 信道 容量 。 
脉冲 功率 。 考 虑 可 加 高 斯 白 噪声 信道 


Z, 


o 
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9.17 


9.18 


9.19 


HP Z,~N(0,N), 并 且 输 入 信号 具有 平均 功率 约 东 条 件 P。 
(a) 假设 在 时 刻 1 用 所 有 的 功率 ( 即 , E X= nP, EX?=0, Yi=2,3,…,n)。 试 求 


1(X"; Y”) 
max 
f(z") n 


其 中 , 最 大 值 是 在 约束 条 件 EE X?= nP, EX?=0, i=2,3,…n Fi GATE F(x”). 
bR max HY), 并 且 与 (a) 的 结果 作 比 较 。 

HE(TEL Xx)<P 7 
时 变 均 值 的 高 斯 信道 。 求 下 列 高 斯 信道 的 信道 容量 : 





Z; 


—o- 


S ZoZo RAR, 并 且 令 在 x*(W) 上 的 功率 约束 条 件 为 P, 分 别 求 满足 下 列 条 
件 时 的 信道 容量 : 

(a) 对 所 有 的 i, j=0。 

(b) p=ei，i=1,2,…, 假设 传输 者 和 接收 者 都 知道 w。 

(c) u: 不 确定 , 但 对 所 有 的 i, p: 为 独立 同 分 布 且 ~ N0, NN1)。 

信道 容量 的 参数 形式 。 考虑 m 个 并 联 高 斯 信道 Y; = X; + 2Z;, 其 中 Z ~ N(0,2;), RE X; 


是 相互 独立 的 随机 变量 。 因 此, C= D Hogi + EA], arama uwe a- 
A)" = P。 证 明 可 以 写 为 下 面 的 形式 
P(A) = X A-A) 


Ca) = >) Flog# 


这 里 P(X) 是 逐 段 线性 , 而 C(4) 是 A 的 逐 段 取 对 数 。 

PES, BRAT, 它 的 输出 了 为 了 Y= X + Z, 其 中 信道 输入 X 有 平均 功 

率 约束 条 件 EX?<P, 并 且 噪 声 过 程 |Z.1 -是 独立 同 分 布 序列 且 具 有 功率 N 的 边际 分 

布 pz(Z)( 不 必 是 高 斯 分 布 )， 

EZ =N 

(a) 证 明 信 道 容量 C=maxgx<pl(X;Y) 的 下 界 Co 满足 Ce= 二 log(1+ 六 外 

(b) 如 果品 声 是 非 高 斯 的 ， 就 按照 在 欧 几 里 得 虐 离 意 义 下 最 接近 该 向 量 的 码 字 , 将 接收 到 
的 向 量 解码 成 码 字 一 般 来 讲 是 次 优 解 。 但 是 ,即使 严格 遵守 最 邻近 译 码 ( 即 最 小 欧 几 
里 得 距离 译 码 ), 码 率 Co 也 是 可 达 的 ,而 最 优 最 大 似 然 译 码 或 者 联合 典型 译 码 (关于 
真实 的 噪声 分 布 ) 则 不 然 。 

(o) 扩展 结果 到 下 列 条 件 : 噪声 不 是 独立 同 分 布 的 , 但 关于 功率 N 是 平稳 且 饥 历 的 。 
(关于 (b) 与 (c) 的 提示 : 考虑 大 小 为 2 的 随机 码 短 。 其 中 的 码 字 是 相互 独立 的 ,并 且 
服从 半径 为 V7P 的 n 维 球 上 的 均匀 分 布 。) 

(a) 用 对 称 方法 ,证 明 噪声 向 量 经 过 条 件 作用 后 ,其 平均 误差 概率 仅 通 过 它 的 欧 几 里 得 范 
数 | zl 间接 依 束 于 噪声 向 量 。 


N 
O 
Cn 
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(b) 利用 几何 方法 证 明 这 个 依赖 性 是 单调 的 。 
(c) 已 知 码 率 R< Co, 选择 某 个 N >N, 使 得 


R< 二 log(1+ 直 ) 


将 其 与 噪声 为 独立 同 分 布 且 服 从 NN(0,N') 时 的 结果 作 比 较 。 
(d) 利用 上 述 码 夭 能 达到 高 斯 信道 的 容量 这 一 事实 (无 需 证 明 ) 总 结 出 证 明 过 程 。 


9.20 互信 息 游戏 。 考 虑 下 列 信道 ;: 


Z 


o 


在 整个 问题 中 , 我 们 均 将 限制 信号 功率 为 
EX = 0,EX2 = P (9-176) 

而 噪声 功率 为 
EZ =0,EZ7=N (9-177) 

FEBRE X 和 2 相互 独立 。 信 道 容量 由 I(X;X+2Z) 给 出 。 
现 来 考虑 ,要求 噪 声 扮演 者 选择 一 个 关于 Z 的 分 布 , 使 得 I(X;X+Z) 达 到 最 小 , 而 

要 求 信号 扮演 者 选取 一 个 关于 X 的 分 布 , 使 得 1(X;X+ 2Z) 达 到 最 大 。 令 X* 一 人 N O, 
P),Z*~N(0,N), 证 明 X* 和 2 满足 鞍点 条 件 


I(X;X + Z*)<1(K* IIX TD ) TOX 3 X* +Z) (9-178) 
于 是 ， 
min maxl(X;X + Z) = max minI(X;X + Z) (9-179) 
_1 P 
=> log(1 + £) (9-180) 


因而 , 该 游戏 有 一 个 值 。 特 别 是 , 对 于 任何 一 方 的 选手 而 言 ,如 果 选 取 的 分 布 偏离 了 正 态 
分 布 , 那么 该 选手 就 会 损失 互信 息 。 讨 论 这 意味 着 什么 ? 
2: 证 明 的 关键 部 分 要 用 到 17.8 PMR SR, RRS n 维 随 

机 向 量 和 和 立 相互 独立 且 密 度 函 数 均 已 知 时 , 则 
AAY) > DFA) + QAO” (9-181) 

恢复 噪声 。 考 虑 一 个 标准 高 斯 信道 Y = X+ 27, 其 中 五 是 iid. ~ N(O,N),i = 1, 


2 ,nm HAL STAI P. RE, 我 们 感 兴趣 的 是 恢复 出 该 高 斯 噪声 Z， 而 并 不 关心 信 


BX, BEX = (0,0, =, 0), 接收 者 得 到 Y = Z, 便 能 够 完全 决定 Z 的 值 。 我 们 想 
知道 X* 中 有 多 大 的 可 变 度 时 依然 可 以 恢复 出 高 斯 噪声 Z"。 利用 下 图 所 示 的 信道 


Z 


a y” —— 2" Y”) 


讨论 对 某 个 R>O, 发 送 者 可 以 任意 地 发 送 22" 中 的 不 同 序列 , 在 
Pr{Z” £ Z"| +0 当 2” 一 co 
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的 意义 下 ,并 不 会 影响 对 噪声 的 恢复 。 什 么 样 的 尺 有 这 种 可 能 ? 
历史 回顾 


对 高 斯 信道 的 分 析 首 先是 香农 在 原创 性 论文 [472] 中 给 出 的 。 针 对 高 斯 彩色 噪声 信道 的 容量 
的 注水 解 是 香农 在 [480] 中 发 展 出 来 的 , 而 精细 化 的 处 理 则 是 平 斯 克 给 出 的 [425]。 模 拟 高 斯 信 
道 的 处 理 是 Wyner 在 [576] Gallager 在 [233], 以 及 Landau, Pollak 与 Slepian 分 别 在 [340，341， 
500] 给 出 的 。 

平 斯 克 [421] 与 Ebert [178] 讨论 了 反馈 至 多 能 够 使 得 高 斯 非 白 信 道 的 容量 翻 倍 ; 而 本 文中 
的 证 明 过 程 来 自 于 Cover 与 Pombra [136], 他 们 也 证 明了 反馈 至 多 能 够 使 得 高 斯 非 白 信道 的 容量 
提高 半 个 比特 。 关 于 高 斯 非 白 噪声 信道 的 最 新 反馈 容量 结果 当 属 Kim [314]. 


oO 





第 10 章 BARBIE 


描述 一 个 任意 的 实数 一 般 需 要 无 穷 比 特 , 因此 , 对 连续 随机 变量 的 有 限 表示 永远 不 可 能 完 
美 。 问 题 在 于 我 们 到 底 可 以 做 得 多 好 ? 为 了 给 这 个 问题 清晰 的 构架 , 首先 给 出 关于 信 源 表示 的 
“优良 程度 ”的 定义 。 为 此 , 引入 失真 度量 的 概念 。 失 真 度量 是 指 随 机 变量 和 它 的 表示 之 间 的 距 
离 的 度量 。 因 此 , 率 失真 理论 的 基本 问题 可 以 归结 如 下 : 对 于 一 个 给 定 的 信 源 分 布 与 失真 度量 ， 
在 特定 的 码 率 下 , 可 达到 的 最 小 期 望 失真 是 多 少 ? 或 者 等 价 地 说 , 为 满足 一 定 的 失真 限制 , 最 小 
描述 码 率 可 以 是 多 少 ? 

正如 将 大 象 与 小 鸡 放 在 一 起 描述 比 单独 描述 它们 更 有 效率 , 率 失真 理论 一 个 诱 人 的 方面 在 
于 联合 描述 比 单个 描述 更 为 有 效 。 这 种 观点 其 至 适用 于 独立 随机 变量 的 情形 。 比 如 , 对 Xi 和 
X 进行 联合 描述 (在 各 自给 定 的 失真 度量 下 ) 比 逐个 描述 更 为 简单 。 为 什么 独立 的 间 题 没有 独立 
的 答案 呢 ? 从 几何 中 可 以 得 到 答案 。 显 然 矩形 网 格 点 ( 源 自 独 立 的 描述 ) 并 不 能 够 有 效 地 装填 整 
个 空间 。 

率 失 真理 论 不 仅 适用 于 连续 随机 变量 , 也 适用 于 离散 随机 变量 。 第 5 章 的 零 误差 数据 压缩 
理论 是 率 失真 理论 可 以 应 用 于 离散 信 源 的 一 个 重要 例子 , 此 时 率 失真 为 零 。 下 面 首 先 考虑 一 种 
简单 情形 , 即 用 有 限 的 比特 数 表示 单个 的 连续 随机 变量 。 


10.1 量化 


本 节 我 们 会 看 到 ,精确 地 解决 单个 随机 变量 的 量化 问题 相当 复杂 , 这 激励 我 们 完善 率 失 真理 
论 。 由 于 一 个 连续 的 随机 信 源 需要 无 限 的 精确 度 才 可 准确 地 表示 。 因 此 , 不 可 能 通过 一 个 码 率 
有 限 的 编码 使 之 精确 地 再 生 。 我 们 需要 解决 的 问题 是 对 于 任何 给 定 的 数据 码 率 , 寻求 最 好 的 可 
能 表示 。 

首先 考虑 信 源 中 单个 样本 的 表示 问题 。 设 X 是 表示 的 随机 变量 , 记 X 的 表示 为 文 (X)。 如 
果 使 用 R 比特 表示 XX,， 则 函数 文 可 以 有 2 个 取 值 。 要 寻找 义 的 最 优 取 值 ( 称 作 再 生 点 
《reproductiou point) 或 者 码 点 (code point) ) 集 合 以 及 每 个 取 值 所 对 应 的 原 像 区 域 。 

例如 , HX~N(O, o2)， 假 定 失真 度量 为 平方 误差 。 则 要 寻找 不 超过 2 ”个 取 值 的 函数 
X(X), fHE(X-X(X))? 最 小 。 如 果 仅 给 定 1 比特 表示 X, BR, 必须 能 够 用 这 一 比特 来 将 
XX>0 与 否 区 分 开 来 。 为 使 平方 误差 达到 最 小 ,函数 广 (X) 应 该 取 其 所 在 区 域 上 X 的 条 件 均值 ， 


如 图 10-1 所 示 。 于 是 ， 
V2 4r>0 
(x)= (10-1) 
-20 当 z<0 
当 用 2 比特 表示 这 个 样本 时 , 问题 就 并 不 这 么 简单 了 。 显 然 , 需要 把 实 轴 分 成 四 个 区 域 , 并 
选取 每 个 区 域 上 的 一 个 点 表示 样本 。 但 是 这 些 表示 区 域 应 该 如 何 划 分 , 以 及 再 生 点 应 该 怎样 选 
取 ? 要 解决 这 些 问 题 却 并 不 明显 。 然 而 , 对 于 单个 随机 变量 的 量化 问题 , 我 们 可 以 断言 最 优 的 区 
域 划分 以 及 再 生 点 有 以 下 两 个 简单 的 性 质 : 
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图 10-1 高 斯 随机 变量 的 1 比特 量化 


。 当 再 生 点 集合 1 文 ( 记 )} 给 定时 ,可 通过 将 信 源 随机 变量 X 映射 为 再 生 点 集中 最 接近 于 它 
的 表示 文 (w), 使 失真 最 小 化 。 于 是 , 该 映射 定义 一 个 飞 的 区 域 构成 的 集合 , 称 为 由 再 生 
点 定义 的 Voronoi 划分 或 犹 利 克 雷 划分 (Dirichlet partition )。 

。 再 生 点 应 该 在 各 自 划 分 到 的 区 域 上 使 条 件 期 望 失真 最 小 化 。 

这 两 个 性 质 使 我 们 能 够 构造 出 获得 “好 ”的 量化 器 的 一 种 简单 算法 : 从 某 个 再 生 点 集合 开始 ， 
找到 最 优 的 再 生 区 域 集 (在 失真 度量 下 的 最 邻近 的 区 域 ), 然后 再 确定 出 这 些 区 域 的 相应 最 优 再 
生 点 (如 果 失 真 度量 是 平方 误差 , 则 再 生 点 即 是 这 些 区 域 的 质心 )。 如 此 继续 对 这 个 新 的 再 生 点 
集合 重复 以 上 和 迭代 过 程 。 在 算法 的 每 一 步 中 , 期 望 失真 是 逐步 递减 的 , 因此 , 算法 将 收敛 于 失真 
的 一 个 局 部 极 小 值 。 该 算法 称 为 Lloyd 算法 [363]( 针 对 实 值 随机 变量 ) 或 推广 的 Loyd 算法 
[358]( 针 对 向 量 值 随机 变量 ), 是 设计 量化 系统 的 常用 算法 。 

如 果 要 量化 的 并 非 是 单个 随机 变量 ,而 是 服从 高 斯 分 布 的 个 独立 同 分 布 的 随机 变量 集合 ， 
用 nR 比特 表示 它们 。 由 于 信 源 是 独立 同 分 布 的 , 于 是 信 源 符 也 是 独立 的 。 因 此 , 假如 分 开 处 理 
的 话 , 每 个 元 素 的 表示 都 显得 像 是 一 个 独立 的 问题 。 然 而 , 随后 的 率 失真 理论 的 结果 将 表明 这 是 
不 对 的 。 我 们 将 用 取 2 下 个 值 的 一 个 下 标 表 示 整 个 序列 。 在 相同 的 码 率 下 , 这 种 对 整个 序列 同时 
处 理 的 方法 比 对 于 单个 样本 独立 量化 所 得 的 失真 更 低 。 


10.2 定义 


假设 某 信 源 产生 序列 X,, X2, 0, X,, 是 i.i.d. 一 pz)，zE 光 。 在 本 章 的 证 明 中 , 假设 字 
母 表 是 有 限 的 , 但 大 多 数 离散 情形 下 的 证 明 都 可 以 推广 到 连续 的 随机 变量 。 信 源 序列 X" 的 编码 


FA ARS, (X") € 11,2,… ,2 中 | 表示 ，X" 的 译 码 用 估计 形式 EE 计 表示 , 如 图 10-2 所 示 。 





图 10-2 率 失真 编码 器 与 译 码 器 


定义 ”失真 函数 (distortion function) 或 者 失真 度量 (distortion measure) 指 从 信 源 字母 表 与 再 生 


字母 表 的 乘积 空间 到 非 负 实数 集 上 的 映射 4: x VR? (10-2) 
失真 d(xz,z) 是 用 来 刻画 使 用 表示 x 时 的 代价 度量 。 


W 
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定义 “” 称 失真 度量 是 有 界 的 ,如 果 失 真 的 最 大 值 有 限 : 
dmg 2 max d(x,z) < oo (10-3) 


EXER 


在 大 多 数 情形 下 , PEFR RAS ER EMEK 
常用 的 失真 函数 的 例子 有 
。 汉 明 (误差 概率 ) 失 真 。 汉 明 失 真 定 义 为 
` 0 4r=2z 
d(zx,x) = 1 当 工 闫 这 (10-4) 
HF Ed(X,X)=Pr(X4X), 上 述 定义 导出 一 个 误差 概率 失真 。 
平方 误差 失真 。 平方 误 差 失真 


e 


d(z,xz) =(x-2) (10-5) 
是 连续 字母 表 最 常用 的 失真 度量 。 其 优点 在 于 简单 , 且 与 最 小 二 乘法 联系 紧密 。 但 在 某 
些 应 用 中 , 例如 图 像 编码 和 语音 编码 , 许多 作者 指出 , 从 人 的 观测 角度 看 来 , 均 方 误差 并 
非 是 恰当 的 失真 度量 。 例 如 , 语音 波形 与 同一 波形 的 另 一 版 在 小 的 时 间 差 异 下 将 会 有 很 
大 的 平方 误差 失真 ,即使 对 于 同一 个 观察 者 来 讲 , 这 两 个 声音 听 起 来 是 一 样 的 。 
有 许多 替代 的 方案 已 经 被 提出 。 在 语音 编码 中 常用 的 一 种 失真 度量 为 JIiakura-Saito 距离 ， 
它 是 多 元 正 态 随机 过 程 之 间 的 相对 炉 。 然 而 , 在 图 像 编码 中 , 到 目前 为 止 还 没有 真正 找到 一 种 好 
的 失真 度量 去 替代 均 方 误差 度量 。 
失真 度量 概念 是 定义 在 字符 x 字符 上 的 。 下 面 我 们 把 这 个 定义 推广 到 下 面 的 序列 上 去 。 
定义 ”rr 与 xX" 序列 间 的 失真 定义 为 
d(2",2") = PPCES (10-6) 
因此 , 一 个 序列 的 失真 是 序列 中 每 个 分 量 失 真 的 平均 值 。 这 并 非 是 惟一 合理 的 定义 。 例 如 ， 
可 以 将 两 个 序列 间 的 失真 度量 定义 为 每 字符 失真 的 最 大 值 。 下 面 所 获得 的 理论 并 非 直接 适用 于 
更 一 般 情形 的 失真 度量 。 
定义 一 个 (2 下,n) 率 失真 码 (rate distortion code) 包 括 一 个 编码 函数 


fai” — {1,2,2} (10-7) 
和 一 个 译 码 ( 再 生 ) 函 数 
gn: 11,2507, 2 | > (10-8) 
关于 这 个 (2 下 ,nn) 码 的 失真 定义 为 
D = Ed(X",g(fn(X"))) (10-9) 
其 中 所 取 的 期 望 是 针对 X 的 概率 分 布 而 言 的 : | 
D = d)p2")d(2" 18 f(z"))) (10-10) 


K on TA gA), g (2), > gp (ZENER KEA), 各 (2)，…， "(2 下 ), 它 构成 一 个 码 短 , H 
fai), 所 1(2),…，f;i1(2 下 ) 为 相应 的 分 配 区 域 (assignment region) o 

有 多 种 术语 可 以 用 来 表达 这 种 量化 形式 文 "( w) 来 替代 X*"。 常 见 的 有 X 的 向 量 量化 、 再 生 、 
重 构 、 表 示 、 信 源 编码 以 及 估计 。 

定义 ” 称 率 失 真 对 (R, 品 ) 是 可 达 的 , 若 存在 一 个 (2 中 ,nn) 率 失真 码 序列 ( ,gs), 满足 
lim, 20 Ed( X” , g,(f,(X")) Do 

定义 ”全 体 可 达 率 失真 对 (R,DD) 所 成 的 集合 闭 包 称 为 信 源 的 率 失 真 区 域 。 
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定义 ”对 于 给 定 的 失真 D, 满足 (R,D) 包 含 于 信 源 的 率 失 真 区 域 中 的 所 有 码 率 R 的 下 确 界 
PA KA HH (rate distortion function) R(D). 

定义 ”对 于 给 定 的 码 率 R, 满足 (R,D) 包 含 于 信 源 的 率 失 真 区 域 中 的 所 有 失真 D 的 下 确 界 
BH XA B&H (distortion rate function)D(R)。 

失真 率 函 数 给 出 了 另 一 种 观察 率 失真 区 域 的 边界 的 方法 。 尽 管 两 种 描述 方法 是 等 价 的 , 但 
是 , 习惯 上 通常 用 率 失 真 函数 而 不 是 用 失真 率 函 数 来 描述 其 边界 。 

现在 定义 关于 信 源 的 一 个 数学 函数 ， 称 为 信息 率 失真 函数 。 本 章 的 主要 结果 是 证 明 信 息 率 
失真 函数 与 上 述 定义 的 率 失真 函数 是 等 价 的 , 即 可 达 某 一 特定 失真 的 所 有 码 率 的 下 确 界 。 

定义 ” 设 信 源 X 的 失真 度量 为 4(x,z)， 定义 其 信 BRERA BRR? (D)A 

R\(D) = 1(X;X) (10-11) 


p(xiz): 2 ne oa, ,TD 


其 中 的 最 小 值 取 自 使 联合 分 布 pb(z,z)= p(xz)p(z|z) 满 足 期 望 失真 限制 的 所 有 条 件 分 布 plz). 

与 第 7 章 中 对 信道 容量 的 讨论 类 似 , 先 考虑 信息 率 失真 函数 的 性 质 , 并 对 一 些 简单 信 源 与 失 
真 度量 , 计算 它们 的 信息 率 失 真 函 数 。 然 后 证 明 , 这 个 函数 是 可 以 达到 的 , 即 存在 一 个 失真 DD 而 
码 率 为 RD(D) 的 编码 。 

下 面 给 出 的 是 率 失真 理论 的 一 个 主要 定理 : 

定理 10.2.1 对 于 独立 同 分 布 的 信 源 X, PARTHA p(x) BKRABK dlre) AA, M 
么 其 率 失真 函数 与 对 应 的 信息 率 失 真 函数 相等 。 于 是 ， 

R(D) = R®(D) = min 1(X;X) (10-12) 


Pela): 2 Pz dl zz)ED 
为 在 失真 品 下 的 最 小 可 达 码 率 。 
六 定理 表明 率 失 真 函 数 的 可 操作 性 定义 与 信息 方式 的 定义 是 等 价 的 。 因此 , 从 现在 开始 ,对 
这 两 个 率 失真 函数 不 加 区 分 , 都 用 R(D) 表 示 。 在 证 明定 理 前 , 先 对 一 些 简单 的 信 源 与 失真 度 
E, 计算 它们 的 信息 率 失真 函数 。 


10.3 率 失 真 函数 的 计算 


10.3.1 二 元 信 源 
下 面 计算 在 期 望 误差 失真 小 于 或 等 于 D F, 描述 Bernoulli(p) 信 源 所 需 的 码 率 R(D)。 
定理 10.3.1 Bernoulli(p) 信 源 在 汉 明 失真 度量 下 的 率 失 真 函 数 为 
H(p) - H(D), 0<D<min{p,1- p} 
0, D > min{p,1- p} 
WEAR: 考虑 在 汉 明 失真 度量 下 的 二 元 信 源 X 一 Bernoulli(p)。 不 失 一 般 性 , 假定 p<1/2. 
算 率 失真 函数 


R(D) = (10-13) 


R(D) = min 1(X;X) (10-14) 


plar): Ra plz) pF I 2)d(2,2)<D 
FAQ, 表示 模 2 加 法 运算 , 则 XP,X=1 等 价 于 X 尖 文 。 我 们 无 法 直接 最 小 化 1(X; 义 ), 而 是 先 
获得 率 失真 函数 的 一 个 下 界 , 然后 证 明 这 个 下 界 是 可 达 的 。 对 于 任何 一 个 满足 失真 限制 的 联合 
分 布 , 我 们 有 


1(X;X) = H(X)- H(X | X) (10-15) 
= H(p)- H(X¥@X 1X) (10-16) 
> H(p) - H(X¥@X) (10-17) 


> H(p) - H(D) (10-18) 


“4 
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由 于 Pr( X#X)<D HH(D)E D1 人 2 时 是 单 增 的 。 于 是 ， 
R(D) > H(p) - H(D) (10-19) 
我 们 下 面 说 明 , 若 能 找到 一 个 满足 失真 限制 且 有 ICX;X)=R(D) RASA, 则 这 个 下 界 
TRLEBRKA BM. HFOKD<p, 选取 (X, 义 ) 使 其 联合 分 布 满足 如 图 10-3 所 示 的 二 元 对 称 
信道 , 则 可 以 达到 式 (10-19) 中 的 率 失真 函数 值 。 


1-p-D 0 1-D 
1-2D 








0 i-p 


PD | 1 
1-2D f 1-D 
图 10-3 ”二 元 信 源 的 联合 分 布 
我 们 选取 在 信道 输入 处 义 的 分 布 , 使 输出 分 布 X 服从 图 10-3 中 指定 的 分 布 。 令 >= Pr(X=1)， 
并 且 对 > 的 选取 满足 


ra-D)+QU-rnD=p (10-20) 
或 
r= E2 (10-21) 
# D<p<17, 则 Pr(X=1)20, 且 Pr(X=0)5>0. TERTA 
I(X;X)= H(X)- H(X | X) = H(p) - H(D) (10-22) 


且 期 望 失真 为 Pr(X 了 义 )= DD。 


若 D>p, 则 可 通过 令 X=0 的 概率 为 1 而 达到 码 率 R(D)=0。 此 时 ,I(X; 义 )=0, 且 期 望 
失真 为 D=p。 同 样 地 , # D 之 1 p, 则 可 通过 令 X51 的 概率 为 1 而 达到 码 率 R(D)=0。 因 
此 , 二 元 信 源 的 率 失真 函数 为 
H(p) ~- H(D), 0<D<minjp,1- p} 


R(D) = 0, D > min{p,1 — p} (10-23) 
其 函数 图 像 如 图 10-4 所 示 。 口 
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图 10-4 Bemoulli( £ ) 信 源 的 率 失真 函数 


以 上 的 计算 似乎 并 无 完整 合理 的 动机 , 最 小 化 互信 息 为 什么 和 量化 有 关系 ? 这 个 问题 必须 
等 到 定理 10.2.1 的 证 明 以 后 才能 给 以 回答 。 
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10.3.2 高 斯 信 源 

尽管 定理 10.2.1 仅 对 具有 有 界 失 真 测度 的 离散 信 源 给 出 了 证 明 , 但 它 的 方法 可 以 推广 到 对 
于 具有 良好 行为 的 连续 型 信 源 以 及 无 界 失 真 测度 。 假 定 该 一 般 性 定理 成 立 , 那么 , 在 平方 误差 失 
真 度量 下 来 计算 高 斯 信 源 的 率 失真 函数 。 

定理 10.3.2 一 个 NM (0,o?) 信 源 在 平方 误差 失真 度量 下 的 率 失 真 函 数 为 


[z 0<D<oe?’ 
R(D) =4.2 ° D’ (10-24) 
0 D> 
证 明 : 设 X~ 人 (0,c:), 由 推广 到 连续 型 字母 表情 形 的 率 失真 定理 , RNA 
R(D) = © min a 1(X;X) (10-25) 


与 前 面 的 例子 类 似 ， 首先 获得 率 失 真 函数 的 一 NER, 然后 证 明 这 个 下 界 是 可 达 的 。 由 于 
E(X-X)<D, 我 们 有 


1(X;X) = A(X) -A(X | X) (10-26) 
= Flog(2ne)o? — A(X - X | X) (10-27) 

> Flog(2ne)o? - A(X - X) (10-28) 

> Flog(2ne)o? — h(N(0,E(X - X)?)) (10-29) 

= flog(2ne)o? - 5 log(2ne)E(X - X)? (10-30) 

> Hog(2ne)o? - Flog(2ne)D (10-31) 

1 = the Z (10-32) 


pest (10-28) fash FLA RPE NRE 式 (10-29) 是 由 于 在 给 定 二 阶 矩 下 , 正 态 分 布 使 
MEKE 8.6.5). A, 


R(D) 之 方 Lig 和 万 (10-33) 


为 了 求 得 达到 这 个 下 界 时 的 条 件 密度 (olx), 通常 更 为 简便 的 办 法 是 着 眼 考 虑 条 件 密度 函数 
f(zlz), 对 此 , 有 时 称 作 测 试 信道 (test channel )( 为 了 强调 率 失 真 与 信道 容量 的 对 偶 性 )。 如 在 二 元 
信 源 情形 中 一 样 , 构造 使 等 号 成 立 的 f(z|z)。 选 取 如 图 10-5 所 示 的 联合 分 布 。 如 果 DS, W 


X= X+Z,KX ~N(0,0? -DD),Z ~ N(0,D) . (10-34) 
其 中 义 与 Z. 独 立 。 对 于 该 联合 分 布 , 计算 可 得 
1 o Z~N (0, D) 
I(X;X) = 广 log 万 (10-35) 
WURE(X-XY=D, 于 是 这 个 联合 分 布 可 以 达到 |. ， ， 
式 (10-33) 中 的 下 界 。 若 D>o?, 以 概率 1 选取 = 1MOS ANO) 
0, 则 由 此 可 得 R(D)=0. Mit, 高 斯 信 源 在 平方 误 图 10.5 高 斯 信 源 的 联合 分 布 


差 失真 下 的 率 失真 函数 为 


<D<o? 
R(D) = jz boeg, S DSe (10-36) 
0, D> 


© 





ww 
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其 函数 图 像 如 图 10-6 所 示 。 口 
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图 10-6 ”高 斯 信 源 的 率 失真 函数 


我 们 可 将 式 (10-36) 改 写 为 用 码 率 来 表示 失真 的 表达 式 ， 
D(R) = 07277 (10-37) 


此 式 表明 描述 每 增加 1 比特 将 导致 期 望 失 真 以 十 倍 减 小 。 当 描 述 使 用 1 比特 时 , 最 佳 的 期 望 平 方 
误差 为 "2 4。 将 此 与 10.1 节 中 使 用 1 比特 量化 随机 变量 NM (0,c) 这 个 简单 结果 作 个 比较 。 用 两 
个 表示 区 域 分 别 为 正 负 实 轴 , 再 生 点 为 各 自 表示 区 域 的 质心 , 期 望 失真 为 一 2o? 0.36330 (2 


T 

看 习题 10.1)。 我 们 后 面 会 证 明 ,编码 时 如 果 考 虑 足够 的 分 组 长 度 , 率 失真 限度 R(D) 是 可 达 的 。 
这 个 例子 表明 ,如 果 将 几 个 失真 问题 连 在 一 起 考虑 (具有 足够 的 分 组 长 度 ), 则 可 获得 比 单个 分 开 
来 考虑 时 更 低 的 失真 。 这 多 少 令 人 有 点 惊讶 ,因为 我 们 量化 的 是 独立 的 随机 变量 。 
10.3.3 独立 高 斯 随机 变量 的 同步 描述 ~ 

本 小 节 考 虑 m 个 独立 (但 服从 不 同 的 分 布 ) 的 正 态 随机 信 源 X!，…，X 的 表示 问题 , 其 中 
X; 是 一 NA(0,c3) ,为 平方 误差 失真 。 假 设 用 R 比特 来 表示 这 个 随机 向 量 。 自 然 有 这 样 一 个 问 
题 : 如 何 分 配 这 些 比 特 到 各 成 员 , 才能 使 总 失真 最 小 ? 将 信息 率 失真 函 数 的 定义 推广 到 向 量 情 
形 , 我 们 有 





I(x”; X”) (10-38) 


min 
Jfa EAX”, KYD 


其 中 d(zr ,im) = X Ca- 2). BAIAT HOTTIE, 我 们 有 


R(D) = 


ICK”; X”) = OX") ~ h(X” | $") (10-39) 
= DaX) 一 DHX, | X7, X™) (10-40) 
> DaX) - Phx | X,) (10-41) 
= DXX) (10-42) 
> Š, R(D) (10-43) 


m 1 o? + 
=$ Jigi) (10-44) 
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其 中 D; = E(X; — X;)* 以 及 式 (10-41) 是 因为 加 入 条 件 使 箭 减 小 。 式 (10-41) sR (10-43) 中 的 等 
号 可 由 前 面 例子 类 似 地 选取 f(a" 12") = ][ f(z; 1 z;) 和 分 别 选取 分 布 义 ; ~ N (0,03 一 D) 
得 到 。 因 此 , 求解 率 失真 函数 问题 可 简化 为 如 下 的 最 优化 问题 (为 了 简便 起 见 ， 使 用 奈 特 为 单 
位 ): 


R(D) = min Smax 4 in 2 o] (10-45) 
ÈD =D in 2 D;’ 
用 拉 格 朗 日 乘 子 法 , 我 们 建立 函数 
o? 
J(D) = È Jng + ADD, (10-46) 
同时 关于 D 求 偏 导数 , 并 令 其 等 于 0， 我 们 有 | 
范 -= 广 二 +4=0 (10-47) 
或 
D;=A (10-48) 


Auk, 对 于 各 种 描述 的 最 佳 比特 分 配方 案 是 让 各 个 随机 变量 具有 相等 的 失真 。 如果 对 所 有 的 
i, (10-48) PAE A Miho? 小 , 要 达到 这 一 目标 是 可 能 的 。 当 总 的 可 容许 的 失真 D 增 大 时 ， 
常量 “也 随 之 增 大 , 直到 对 某 个 4; 超过 了 2?。 此 时 , 式 (10-48) 的 解 处 于 可 容许 的 失真 区 域 的 边 
界 上 。 若 继续 增加 总 的 失真 , 必须 运用 库 恩 - 塔 克 条 件 求解 式 (10-46) 中 的 最 小 值 。 此 时 ,由 
库 思 - 塔 克 条 件 可 导出 
+A (10-49) 
其 中 A 的 选取 满足 
ai 0 WẸ D; < o (10-50) 
aD; <0 MRD, > of 
AS Wik, PER - 塔 克 方 程 组 的 解 可 由 下 面 的 定理 给 出 : 
定理 10.3.3( 并 联 高 斯 信 源 的 率 失 真 ) BX, ~ NO, FG = 1,2,…,m) 为 独立 的 高 斯 随 


PEE, 假定 失真 度量 为 d(x”",z") = Di" (a i), 则 率 失 真 函 数 为 
R(D) = > Liggi (10-51) 
其 中 
wos 
其 中 对 入 的 选取 满足 D; =D, 


这 引出 了 如 图 10-7 所 示 的 一 一 种 反 注 水 法 。 选 定 一 个 常量 ,只 描述 方差 比 人 大 的 随机 变量 ， 
而 方差 比 4 小 的 随机 变量 不 用 比特 描述 。 总 之 ,如 果 
a wee 0 


X~N 
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0 > On 


W 


A 





Ww 
n 


180 第 10 章 





K~N 





of tee 0 
O,J i oc. ot 
0 .. a, 


成 立 , HEX: -X =D, 其 中 D;= min|X ,oi|。 更 一 般 地 , 多 元 正 态 向 量 的 率 失真 函数 可 利用 
反 注 水 法 并 依据 协 方差 阵 的 特征 值得 到 。 也 可 以 对 高 斯 随机 过 程 进行 相同 的 讨论 。 由 谱 表示 定 
理 , 高 斯 随机 过 程 可 由 在 多 个 频带 上 的 独立 高 斯 过 程 的 积分 表示 。 将 反 注 水 法 应 用 于 频谱 , 可 以 
得 到 率 失真 函数 。 











X, X, X, X, X, x, 


图 10-7 独立 高 斯 随机 变量 的 反 注 水 法 


10.4 率 失 真 定 理 的 逆 定 理 


本 节 证 明 , 如 果 用 小 于 R(D) 的 码 率 描述 X, 则 不 能 达到 比 D 小 的 失真 , 由 此 来 证 明定 理 
10.2.1 中 的 逆 命 题 , 其 中 
I(X;X) (10-53) 


min 
plrlx): Dy plr)plzlz)d(r,z)ED 
(zo7) 


上 述 最 小 值 取 自 所 有 使 联合 分 布 p(z,z)= p(x)p(z|z) 满 足 期 望 失真 限制 的 条 件 分 布 p(z|z)。 
在 证 明道 定理 之 前 , 首先 给 出 有 关 信息 率 失真 函 数 的 一 些 简 单 性 质 。 

引 理 10.4.1(R(D) 8 GH) 由 式 (10-53) 给 出 的 率 失 真 函 数 R(D)AKT D HAS 
LK, 

证 明 : 由 于 当 D 增 大 时 , R(D) 是 随 之 增 大 的 集合 上 的 互信 息 的 最 小 值 , Alb, R(D)KT 
D 非 增 。 为 证 明 R(D) Bo, 考虑 率 失 真 曲线 上 的 两 个 率 失真 对 ( R1,D1) 与 (Rs,DD,)。 记 达到 
这 两 个 率 失真 对 的 联合 分 布 为 pl(zx,z)=p(z)pi(z1z) 和 pu(z,z)= p(x)pa(Z|z)。 考 虑 分 
Hi p,=Ap, + (1 一 4)p2。 由 于 失真 是 关于 分 布 的 线性 函数 , 则 我 们 有 D(p,)= AD, + (1 +A) D20 
另 一 方面 , 互信 息 为 条 件 分 布 的 是 函数 (定理 2.7.4), 于 是 


R(D) = 


In(X; 久 ) SAI (X3X) + (1 — à)Ip(X;£8) (10-54) 
因此 , 由 率 失真 函数 的 定义 ， 
R(Dy) S Ip(X;8) (10-55) 
< AL (X3K) + (1 -Aå)Ip(X;X) (10-56) 
= AR(D,) + (1 - A)R(D,) (10-57) 
这 证 明了 R(D)A D 的 凸 函 数 。 口 


现在 , 已 做 好 了 对 北 定 理 证 明 的 准备 。 
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证 阴 ( 定 理 10.2.1 中 的 逆 定 理 ): 对 于 失真 度量 d(x,z), 且 i.i.d. RA p(x) 的 任何 信 源 义 ， 
以 及 失真 委 的 任何 一 个 (2 下 ,n ) 率 失真 码 , 我 们 需要 证 明 该 编码 的 码 率 必 定 满 足 RSR(D). 
事实 上 , 要 证 明 RSR(D)MFRSUERH f 与 g,, 两 者 长 度 相同 不 超过 2 中 个 取 值 。 

考虑 由 式 (10-7) 和 式 (10-8) 给 出 的 函数 fF, 和 g 定义 的 某 个 (2 中 ,nn) 率 失真 码 。 设 如 = 
K(X) = g,(f,(X")) 为 相应 于 X 的 再 生 序 列 , 对 于 此 码 字 ,假设 E d(X,, X,) SD, WRNA 
下 面 的 不 等 式 串 : 


nR SH(f,(X")) (10-58) 
SHC f,(X")) — H(X") |X") (10-59) 
= I(X"; f,CX")) (10-60) 
SI; &") (10-61) 
= H(X") - H(X" | X”) (10-62) 
2 Hx) — H(X | X”) (10-63) 
e > HX) — DHX, | &", X50 X1) (10-64) 
25 H(X;) = SHX: | X;) (10-65) 
= DIX) (10-66) 
25 R(Ed(X;,X;)) (10-67) 
= n( EX R(Ea(X,.X))) (10-68) 
Suk (+3) E(x) ) (10-69) 
2 aR(Ed (X, X")) . (10-70) 
2 yR(D) (10-71) 


其 中 
(a) 基于 事实 : f MARRS 2, 
O (b) 基于 事实 : Hf, (X") |X") S00, 
(c) 基于 数据 处 理 不 等 式 ， 
(d) 基于 X; 的 相互 独立 性 ， 
(e) SF RHBAEY, 
(f) 基于 事实 : 加 入 条 件 总 能 使 粹 减 小 ， 
(g) 基于 率 失真 函数 的 定义 ， 
(h) 基于 率 失 真 函 数 的 凸 性 ( 引 理 10.4.1) 及 Jensen RFK, 
(i) 基于 分 组 长 度 为 n 的 失真 函数 的 定义 ， 
G 基于 事实 : R(D) 关 于 了 DD 是 非 增 函 数 以 及 E d(X,,X,)<Do 
这 说 明了 任意 率 失真 码 的 码 率 R 比 在 失真 水 平 D=E qd(X', 久 ") 下 计算 出 的 率 失 真 函 数 
R(DD) 要 大 。 口 
类 似 的 讨论 方法 也 可 以 应 用 到 被 编码 的 信 源 是 从 有 了 噪声 的 信道 传输 过 来 的 情形 ,从 而 可 以 得 


N 





w 
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到 一 个 等 价 于 带 失真 的 信 源 信道 分 离 定理 : 

定理 10.4.1( 带 失真 的 信 源 信道 分 离 定理 ) A Vi, Vao, V, 为 有 限 个 独立 同 分 布 字母 
表 的 信 源 ， 编 码 为 容量 C 的 离散 无 记忆 信道 中 的 个 输入 字符 序列 X"。 而 信道 的 输出 Y 映射 为 
重 构 字母 表 fr = oY) ADH Ed) = ES Ed (Vi, Vi) 为 由 该 组 合 信 源 与 信道 编码 
方案 构成 的 平均 失真 。 该 失真 TRY ARSC > RD) 成 立 。 

证 明 : 见习 题 10.17。 口 
10.5 率 失真 函数 的 可 达 性 


下 面 证 明 率 失真 函数 的 可 达 性 。 首 先 考虑 联合 AEP 的 修正 情形 , 在 给 定 失 真 度量 下 , 增加 
条 件 为 考虑 的 序列 对 是 典型 的 。 


定义 设 2(z,) 为 芋 x 二 上 的 一 个 联合 概率 分 布 ，4(z,) 是 万 x 光 上 的 失真 度量 。 对 任意 
s >0, 称 序列 对 (x ,2") 是 失真 6。 典型 的 , 或 简称 失真 典型 的 (distortion typical), 如果 


| 一 Tlogp(x") — H(X) | <e (10-72) 
|- togra") - H(X)| < e (10-73) 
|- tigp(e",3") ~ H(X,%)| <e (10-74) 
| d(x", z") ~ Ed(X,X) | <e (10-75) 


由 所 有 失真 典型 序列 构成 的 集合 称 为 失真 典型 集 , 记 为 A o 

注意 , 这 是 存在 附加 限制 条 件 即 失真 接近 期 望 值 时 的 联合 典型 集 (7.6 节 ) 的 定义 。 因 此 , 失 
HAE BRS I BPA CAM, A(X, XA iid. MA~p(z,z), 则 两 个 随 
机 序列 间 的 失真 


a(x", 3") = Lax, X) (10-76) 


为 这 些 独 立 同 分 布 随机 变量 的 平均 , 由 大 数 定律 可 知 , 它 将 以 极 大 的 概率 趋 于 它 的 期 望 值 。 因 
此 , 我 们 有 下 面 的 引 理 。 | 

引 理 10.5.1 设 (X,, 名 ;) 为 独立 同 分 布 的 序列 且 一 p(x,), MAH nom, P(A) 

证 明 : 由 于 定义 Ag 中 的 4 个 条 件 求 和 具有 iid. 随机 变量 的 标准 化 的 求 和 形式 , 因此 由 大 
REE, 这 些 求 和 值 均 将 以 概率 1 收敛 于 它们 各 自 的 期 望 值 。 于 是 ， 当 neon, 满足 4 个 条 件 
的 所 有 序列 构成 的 集合 的 概率 将 趋 于 1。 口 

下 面 的 引 理 是 失真 典型 集 定义 的 直接 结果 。 

引 理 10.5.2 对 任意 (zx ,2")E AN, 

p(x") > p(x” | z”) 277GR) 3e) (10-77) 

WEAR: 由 ARE, 可 以 对 任意 的 (zx" ,2")E AY AEE pr), pa) pla, a" ik 

出 界 估计 ， 即 有 


p(x” x") (10-78) 


pG" | at) = Pras 
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= an p(z”, z”) 
p(x ) Fa") pla’) (10-79) 
an 277(H(X,X)-e) 
< p(x") 3 nH ejg- nH) 6) (10-80) 
一 p(x” 21% X) +36) (10-81) 
由 此 可 知 引 理 成 立 。 口 


我 们 还 需要 如 下 这 个 很 有 意思 的 不 等 式 。 
引 理 10.5.3 对 0 委 z，y 生 1，”>0， 
(l-2zy)"<l-axzte™ (10-82) 
证 明 : 设 f(y)=e °-1+y, WA £(0)=0, 并 且 当 y>0 时 , f(y) = -e ”+1>0, 因此， 
4 y>0, 可 得 f(y) >0. FR, WO<y<1, RNA 1-y<e ”, 并 在 该 式 两 边 同 时 取 n KE, 
可 得 | 
A- y) Se” (10-83) 
于 是 , 当 x=1 时 , 引 理 成 立 。 由 检验 可 知 , 当 z=0 时 , 不 等 式 也 是 成 立 的 。 通 过 求 导 容易 看 
H, g,(x)= (1 一 zxy)"” 是 z 的 是 函数 , 因此 , 对 0 委 z 委 1, 有 


(1 ~ zy)" = g(x) (10-84) 
< (1 - x)gy(0) + zg,(1) (10-85) 
= (1 — x)1l+ zx(l — y)" (10-86) 
<l- rt re” (10-87) 
<l-xt+e™ (10-88) 


由 此 来 证 明定 理 10.2.1 中 的 可 达 性 。 

证 明 ( 定 理 10.2.1 中 的 可 达 性 ): 设 Xi，X,, …, XX, 为 i.i.d. ~ plz), 该 信 源 的 失真 度量 
dz(z, 寺 ) 有 界 。 记 该 信 源 的 率 失真 函数 为 尺 (D), 那么 对 任意 的 品 以 及 任意 的 R > R(D), 我 们 通 
过 证 明 具 有 码 率 R 和 渐 近 失真 DD 的 率 失 真 码 序列 的 存在 性 ， 以 说 明 率 失真 对 (R,D) 是 可 达 的 。 
Wee p(x | x), 使 p(z | x) 满足 式 (10-53) 的 等 号 成 立 。 FR, I(X; 义 ) = R(D)。 计算 p(x)= 
Spx) p(zlax)o HER O>0. 我 们 证 明码 率 为 R 且 失 真 小 于 等 于 D+6 的 率 失 真 码 的 存在 性 。 


n 


码 短 的 生成 。 随 机 生成 由 2 下 个 i.i.d. ~ [[ p(z;) 的 序列 广 , ARR AEC. 为 这 些 码 


i=l 


字 做 下 标 w E 和 1,2,… ,2 中 | , 并 将 该 码 敌 告 知 于 编码 器 与 译 码 器 。 
编码 。 若 存在 一 个 多 使 (Xr , 久 "(w))E AY:( 即 失真 典型 集 ), 则 将 X 编码 为 w。 如 果 这 样 
的 w 不 是 惟一 的 , 则 选取 最 小 的 一 个 。 若 不 存在 这 样 的 ww, MS w=1。 于 是 nR 比特 足以 描述 
联合 典型 码 字 的 下 标 wo 
译 码 。 再 生 序列 即 为 X” Cw) 
失真 计算 。 正 如 信道 编码 定理 情形 , 我 们 计算 在 所 有 随机 选取 的 码 敌 C 上 的 期 望 失 真 为 
D = Ey cd(X",X”") (10-89) 
其 中 所 取 的 期 望 是 针对 码 短 的 随机 选取 和 X 而 言 的 。 
对 于 选 定 的 码 夭 C 与 e>0, 将 所 有 序列 x" 分 为 两 类 : 
。 存 在 一 个 码 字 贸 "( tw) 与 序列 zx" 是 失真 典型 , 即 d(2",2"(w))<Dteo HF REPAY 
总 概率 至 多 为 1, 故 这 些 序 列 对 期 望 失真 的 贡献 不 会 超过 D+ ea l 
。 不 存在 上 述 要 求 的 码 字 X"(w) WP xz*。 记 P, 为 所 有 这 样 的 序列 的 总 概率 。 由 于 任何 
PAA EPI EF duxs 故 这 些 序列 对 期 望 失真 的 贡献 不 会 超过 P, dmo 
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因此 , 我 们 可 将 总 失真 定 界 如 下 
Ed(X",X"(X")) < D + e + P.dinex (10-90) 
E P, 足够 小 , 则 当 适 当选 取 e 后 能 使 上 式 左边 小 于 D+ 5。 因 此, 若 能 证 明 P, 是 很 小 的 , 则 期 望 
失真 就 可 接近 D, 定理 就 得 到 了 证 明 。 

P, 的 计算 。 对 于 随机 选取 的 码 憩 C 和 随机 选取 的 信 源 序列 , 要 估计 不 存在 与 该 信 源 序列 失真 
典型 的 码 字 的 概率 的 界 。 记 J(C ) 为 满足 C 中 至 少 存在 一 个 码 字 与 x" 是 失真 典型 的 序列 zx" 全体 
构成 的 集合 。 于 是 

P, = > P(C) >) p) (10-91) 


TFIC) 
这 是 没有 被 一 个 编码 很 好 地 表示 的 所 有 序列 的 概率 , 其 均值 取 自 所 有 随机 选取 的 码 。 改 变 求 和 
顺序 ， 也 可 以 将 其 解释 为 选取 的 码 德 不 能 很 好 表示 序列 z" 的 概率 , 此 时 , 取 均 值 是 相对 于 p(x") 
mwah, 即 


P, = Yp) >) pc) (10-92) 
x C:r GC) 
我 们 定义 
Kari) -4 WR (2" 2") E AN (10.93) 
Toe 0 a(x", 2") E AY - 


于 是 , 单个 随机 选取 的 码 字 X 不 能 很 好 地 表示 某 选 定 的 x” 的 概率 为 
Pr((x",X") $ AY2) = Pr(K(2",X") = 0) =1- Dip(z")K(2",2") (10-94) 


所 以 , 独立 选取 的 2 入 个 码 字 不 能 很 好 表示 zx" 的 概率 , 关于 p(x”") 取 平均 , 得 到 


P, = = ela") 5 pc) (10-95) 
C:2€H(C) 
= Metz) [i - eta" yK(2",2") |? (10-96) 
我 们 现在 应 用 引 理 10.5. 2 来 估计 中 括号 里 的 和 式 的 界 。 由 引 理 10.5.2, 可 得 
Sp (2")K (2 2") > Dip (at | 2) 2- URK (a, z") (10-97) 
因此 ， 
< Dale" ) (1 = 27700523) Dele" 1 2")K(x",a")) (10-98) 


下 面 利用 引 理 10.5.3 估计 式 (10- 98) 右 边 的 项 的 界 ， 可 得 
(1 9-nU(X5X)+3e) Si p(x" | mK(r, i)) 
x" 


{1(X3K)+3e) my 


<1- PP 1 2") K(2",2") + ee 2 (10-99) 
将 此 不 等 式 代入 式 (10-98) , 我 们 有 
已 过 1- SY Dp) pCa" | 2") K (27, a") te O" (10-100) 
该 不 等 式 的 最 后 一 项 等 于 
i (10-101) 


4 R>1(X;X)+3e 时 , ERG ”以 指数 级 快速 衰减 于 0。 因 此, 如 果 我 们 选取 p(x1z) 为 达到 率 
失真 函数 的 最 小 值 时 的 条 件 分 布 , 则 R>R(D) BRE 尺 > TI(X; 文 )， 并 且 只 要 选取 足够 小 的 
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就 可 以 使 式 (10-100) 的 最 后 一 项 趋 于 0。 
式 (10-100) 中 的 前 两 项 给 出 了 在 联合 分 布 p(x" ,x") 下 序列 对 不 是 失真 典型 的 概率 。 因 此 ， 
由 引 理 10.5.1 可 知 ， 当 ”充分 大 时 ,有 
1- 2 Dp", 3") K(a",3") = Pr((X",X") £ AND < e (10-102) 


所 以 , 适当 的 选取 e An, 能 使 已 任意 小 。 

于 是 , 对 任意 选取 的 8>0, 存在 e Mn, 对 于 分 组 长 度 为 n 且 码 率 为 R 的 所 有 随机 选取 的 编 
B, 期 望 失 真 小 于 D+ 9。 因 此 , 必定 存在 一 个 具有 该 码 率 与 分 组 长 度 的 编码 C* ,其 平均 失真 小 
FD+6. HF 6 是 任意 的 。 于 是 证 明了 当 R>R(D) 时 (R,D) 是 可 达 的 。 口 

我 们 已 经 证 明了 期 望 失真 接近 于 D, 码 率 接近 于 R(D) 的 率 失真 码 的 存在 性 。 率 失真 定理 的 
随机 编码 证 明 与 信道 编码 定理 的 随机 编码 证 明显 然 是 非常 类 似 的 。 我 们 以 高 斯 分 布 为 例 进 一 步 
讨论 它们 之 间 的 相似 性 , 并 以 此 提供 该 问题 的 某 些 几何 解释 。 信 道 编 码 对 应 填 球 模型 ， 而 率 失真 
编码 对 应 球 覆 盖 模 型 。 

高 斯 信道 的 信道 编码 。 考 虑 高 斯 信道 Y, = X; +Z, 其 中 2; 为 i.i.d. ~N (0,N), 且 该 信道 
在 传输 码 字 上 的 单 符号 功率 上 的 功率 限制 为 P。 考 虑 一 个 n 长 的 传输 序列 。 功 率 限制 使 传输 序 
列 限制 在 RR* 中 半径 为 VnP 的 球 内 。 编码 问题 等 价 于 在 该 球 内 找到 一 个 由 2 中 个 序列 构成 的 集合 ， 
使 其 中 的 任何 一 个 序列 被 误 认 为 其 他 序列 的 概率 尽 可 能 地 小 , 即使 以 每 个 序列 为 中 心 , 半径 是 
VY nN 的 球体 几乎 是 互 不 相交 的 。 这 相当 于 用 半径 为 v nN 的 球体 去 填塞 半径 为 Vn(P+ NI) 的 球 。 
我 们 期 望 能 容纳 的 球 的 最 大 数量 为 它们 体积 的 比值 , 或 者 等 价 地 , 为 它们 半径 比值 的 x KE. F 
是 , 若 M 为 能 有 效 传送 的 码 字 的 数量 , 则 有 





(y n(P+N))” P+N)\2 
M< MF (Fe ) (10-103) 
信道 编码 定理 的 结果 已 经 说 明 , 当 n 很 大 时 , 要 有 效 地 实现 这 一 目标 是 可 能 的 。 大 约 可 以 找到 
2 = (EEN) (10-104) 
个 码 字 ， 使 以 它们 为 中 心 的 有 噪声 球 邻 域 是 几乎 不 相交 的 (它们 相交 的 总 体积 可 以 任意 小 )。 324 





高 斯 信 源 的 率 失真 。 考 虑 方差 为 oz 的 高 斯 信 源 。 该 信 源 具有 失真 DWKQ™, n) 率 失真 码 为 
Re 中 2 中 个 序列 组 成 的 集合 , 其 中 大 多 数 长 度 为 的 信 源 序列 ( 即 所 有 位 于 半径 是 V no 的 球 内 的 
信 源 序列 ) 在 某 个 码 字 的 V nD 邻 域 内 。 再 次 使 用 填 球 模型 的 方法 , 显然 , 最少 所 需 的 码 字数 量 为 


DnR(D) = (2) (10-105) 


率 失真 定理 说 明 这 个 最 小 码 率 是 渐 近 可 达 的 , 即 存在 一 族 半 径 为 nD 的 球 , 它们 能 够 覆盖 除去 
其 概率 可 以 任意 小 的 一 个 集合 之 外 的 空间 。 

以 上 关于 几何 性 质 的 讨论 使 我 们 能 够 将 一 个 好 的 信道 传输 码 转变 为 一 个 好 的 率 失真 码 。 在 
两 种 情形 下 , 其 主要 的 思想 都 是 对 信 源 序列 空间 的 填充 : 在 信道 传输 中 , 希望 找到 其 码 字 间 具有 
较 大 的 最 小 距离 的 最 大 码 字 集 ; 然而 在 率 失真 中 , 却 希 望 找到 能 履 盖 整个 空间 的 最 小 码 字 集 。 若 
能 找到 某 个 码 字 集 使 得 其 中 的 情形 之 一 满足 由 填 球 模型 获得 的 界 , 则 它 对 于 另 一 情形 也 必然 满 
足 由 填 球 模型 得 到 的 界 。 在 高 斯 情形 下 , 对 于 率 失真 编码 与 信道 编码 , 选取 码 字 为 高 斯 且 具 有 适 
当 方差 的 方案 都 是 渐 近 最 佳 的 。 
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10.6 强 典型 序列 与 率 失真 


”10.5 节 证 明了 具有 码 率 尽 ( 刀 ) 且 平均 失真 接近 于 D 的 率 失真 码 的 存在 性 。 不 仅 平均 失真 可 
接近 于 D, 而 且 失 真 大 于 D+ 6 的 总 概率 接近 于 0。 证明 方法 与 10.5 节 的 论述 类 似 , 主要 的 区 别 
在 于 使 用 强 典 型 序列 而 不 再 是 弱 典 型 序列 。 这 能 够 使 我 们 对 未 被 式 (10-94) 中 随机 选取 的 码 字 很 
好 地 表示 的 典型 信 源 序列 的 概率 定 出 上 界 。 基 于 强 典 型 性 , 我 们 现在 可 以 给 出 一 个 等 价 证 明 的 
提纲 。 这 将 提供 一 个 更 强 更 直观 手段 来 理解 率 失 真 定 理 。 

我 们 首先 给 出 强 典型 性 的 定义 , 并且 引用 一 个 关于 估计 两 个 序列 是 联合 典型 的 概率 的 界 的 
基本 定理 。 强 典型 序列 的 性 质 在 Berger[53] 中 已 有 介绍 , HE Csiszár 与 Korner 所 著 的 书 [149] 中 
有 详尽 的 论述 。 我 们 将 定义 强 典 型 性 (参见 第 11 Æ), 然后 给 出 基本 的 引 理 ( 引 理 10.6.2)。 

定义 ” 称 序列 ct CARL LWA plr) e BRAM, 如 果 满 足 : 

1. 对 任意 a€X,A pla)>0, WA 

TN(a i a") — pla)| < al 

2. 对 任意 a€X, H p(a)=0, W N(al x") =0. 

其 中 N(ajz) 表 示 字 符 a 在 序列 x” 中 出 现 的 次 数 。 

由 强 典型 序列 EX 组 成 的 集合 称 为 强 典 型 集 , HW A(X), 或 当 随 机 变量 可 以 根 
据 上 下 文 确定 时 简 记 为 AZ”. 

EL PRA ( a", y )ECA XV KFA X VENDA plr, y) Ee 强 典型 的 , 如果 满足 : 

1. 对 任意 (a, b)EXXY, H pla, 6)>0, MA 


1 nona E 
~N(a,b | a", y") pla,b)| < TETy (10-107) 


2. 对 任意 (a, 6)EXXY, H pla, 5)=0, 则 N(a, blz”, y")=0. 
其 中 Nla, bla, y ) 为 (a ,5) 在 序列 对 (zx",y') 中 出 现 的 次 数 。 

由 所 有 强 典型 序列 (x",y"*) EX xX" 构成 的 集合 称 为 强 典型 集 , HEA A(X, Y), 或 
A, MEXIA, la, y) EATX, Y), 则 x"E A2s(X)。 由 强大 数 定律 , 立即 可 得 
下 面 的 引 理 。 

引 理 10.6.1 (X; ¥) Hi.i.d.~pla,y), WS ni, P(A) 

我 们 将 用 到 一 个 基本 的 结论 , 该 结论 估计 了 给 定 序列 与 另 一 独立 抽取 的 序列 是 联合 强 典 
型 的 概率 的 界 。 定 理 7.6.1 说 明 , 如 果 独 立地 选取 XY, 那么 它们 为 弱 联 合 典型 的 概 
率 心 2- "1(X;Y)。 下面 的 引 理 将 该 结果 推广 至 强 典 型 序列 情形 , 这 比 以 前 给 出 的 结论 , 即 随机 选取 
的 序列 与 固定 典型 序列 xz” 的 联合 典型 的 概率 的 下 界 估计 要 强 。 

引 理 10.6.2 2 Yi, Yo. Y, Wicid~ ply), MA 27E A(X), (2", YYEAT (2) 
的 概率 的 界 为 


(10-106) 


2-2 IG ¥) +e) <Pr((z", Y") € AL (x)) < Qn (UX ¥)-e,) (10-108) 
KP e—0, no, e 趋向 于 0。 
证 明 : 此 处 我 们 并 不 证 明 该 引 理 , 而 本 章 后 面 的 习题 10.16 中 给 出 证 明 的 要 点 。 其 实 , 该 证 
明 涉及 找到 关于 条 件 典 型 集 的 大 小 的 一 个 下 界 估计 。 口 
我 们 将 直接 进入 率 失真 函数 的 可 达 性 证 明 。 仅 给 出 一 个 框架 来 说 明 主要 的 思想 。 码 短 的 构 
造 、 编码 与 译 码 过 程 都 与 10.5 节 的 证 明 是 类 似 的 。 
ERA: 选 定 p(x, x), 计算 plz) = 了 p(x)p(X 1z)。 固 定 s > 0, 将 适当 选取 e 以 达到 小 
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于 DD +6 的 期 望 失 真 。 

码 簿 的 生成 。 生 成 一 个 由 2 中 个 i.i.d. ~ |[p(z;) 的 序列 "构成 的 率 失 真 码 秒 C。 记 这 些 序 
IH RA), +, K"(2"®), 

编码 。 给 定 序列 X", 若 存 在 w, 使 (X',X*(w))E AZ” (AURA TRU), 则 将 X" 标 上 下 
标 w ERER w 不 惟一 , 则 以 字典 序 顺 序 第 一 个 发 送 。 若 这 样 的 w 不 存在 , 则 令 w=1, 

译 码 。 令 再 生 序列 为 如 (由 )。 

失真 计算 。 与 10.5 节 中 证 明 的 情况 类 似 , 我 们 计算 在 随机 选取 的 码 簿 上 的 期 望 失真 如 下 


D = Ey cd(X",X”) (10-109) 
= Ec Dip(2")d(2",X"(2")) (10-110) 
= \)p(2")Eed(2",X") (10-111) 


SEP rE SET LER AIS. PEC , 将 序列 oc" CA" 分 成 如 图 10-8 所 示 
的 三 类 。 

。 非典 型 序列 z EAT, HM ?足够 大 时 , 这 
些 序列 的 总 概率 小 于 e。 由 于 任何 两 个 序列 间 
的 失真 有 上 界 dmo 那么 非典 型 序列 对 期 望 失 
真 的 贡献 至 多 为 edmxo 
典型 序列 CAT 且 存 在 码 字句 "(出 ) 与 x” 
是 联合 典型 的 。 此 时 ,由 于 信 源 序列 与 码 字 为 
强 联合 典型 的 , 失真 作为 联合 分 布 的 函数 的 连 
续 性 保证 了 它们 也 是 失真 典型 的 。 因 此 , 这 些 
z” 与 它们 的 码 字 间 的 失真 有 界 DD + edm A 
由 于 这 些 序列 的 总 概率 最 多 为 1， 所以, 这 些 
序列 对 期 望 失 真 的 贡献 最 多 为 D+ ed wag 图 10-8 率 失 真 定理 中 信 源 序列 的 分 类 
典型 序列 z*"E As ("但 不 存在 码 字 义 " 与 za 是 联合 典型 的 。 记 P, 为 这 些 序列 的 总 概率 。 
由 于 任何 两 个 序列 间 的 失真 有 上 界 ding, 那么 这 些 序列 对 期 望 失 真 的 贡献 至 多 为 P, dmo 

第 一 类 和 第 三 类 中 的 序列 为 不 能 被 该 率 失真 码 很 好 地 表示 的 序列 。 第 一 类 序列 的 概率 当 > 
足够 大 时 是 小 于 e 的 。 最 后 一 类 的 概率 为 P,, 我 们 将 会 证 明 其 可 以 变 得 很 小 。 于 是 将 通过 证 明 
不 能 被 很 好 地 表示 的 序列 的 总 概率 很 小 而 证 得 定理 。 我 们 将 再 以 此 证 明 平 均 失 真 接近 于 DD。 

P, 的 计算 。 假 设 给 定 序列 X*, 必须 对 不 存在 码 字 与 其 是 联合 典型 的 概率 做 出 界 估 计 。 由 联合 
AEP RA, X 与 任何 X" 是 联合 典型 的 概率 22- TKD, lt, 5X 为 联合 典型 的 序列 X(w) 
期 望 数 目 为 2<2-w(X:X)。 如 果 RR>1(X; 久 ), 这 个 数值 是 随 n 以 指数 级 增 大 的 。 

但 上 述 理 由 并 不 足以 证 明 P, 一 0。 我 们 必须 说 明 不 存在 码 字 与 X 构成 联合 典型 序列 的 概率 
趋向 于 0。 联 合 典 型 码 字 的 期 望 数量 随 n 以 指数 级 增 大 的 事实 并 不 能 保证 具有 极 大 的 概率 至 少 
存在 一 个 码 字 与 序列 X 是 联合 典型 的 。 正 如 式 (10-94), 我 们 将 误差 概率 展开 为 

已 = 5 pla")[1 - Pr((2",X") € AZ™) P” (10-112) 


real” 












存在 码 字 与 其 
是 联合 典型 的 
典型 序列 


不 存在 码 字 与 
其 是 联合 典型 
的 典型 序列 






非典 型 序列 


由 引 理 10.6.2, 我 们 有 
Pr((2",X") € AZ ™) DS VGA) (10-113) 
We ARASR (10-112), 且 由 不 等 式 (1- x)" <e 下, 可 得 
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AR -n( XG R)+e,)) 


P,e? (10-114) 
ËE R>I(X;X)+e,, 则 当 nft, P, 趋向 于 0。 因 此 , 适当 选取 e Sn, 能 使 所 有 糟糕 地 表示 
的 序列 的 总 概率 任意 地 小 。 由 此 不 仅 证 明了 期 望 失真 接近 于 D, 而 且 能 够 找到 一 个 码 字 使 其 与 


给 定 序列 间 的 失真 小 于 D+6 的 概率 趋 于 1。 口 
10.7” 率 失真 函数 的 特征 
我 们 已 经 定义 信息 率 失真 函数 为 
R(D) = 1(X; 义 ) (10-115) 


min 
gle): Ds ip(r) (zir)d(z,z)ED 


其 中 最 小 值 取 自 使 联合 分 布 p(xz)q(z | x) 满足 期 望 失真 限制 的 所 有 条 件 分 布 q | x+)。 这 是 关于 
凸 函数 的 标准 的 最 小 化 问题 , 其 中 最 小 化 区 域 是 对 于 任意 的 z, WED | x) = 1 Pq(z|z) 


p(x)d(2,2)<D 的 所 有 q(x|z) 之 0 构成 的 凸 集 。 
我 们 可 利用 拉 格 朗 日 乘 子 法 求解 。 先 构造 泛 函 


Iq) = D Epo | hoes Ta) 


+ A>) Dipl(z)q(a | x)d(z,z) (10-116) 
+ Dole) Nae | x) (10-117) 
Bth, REISER qG | 2) 为 条 件 概率 密度 函数 的 约束 相对 应 。 如 果 令 g(z) = Dale) 
| az) 为 由 gG | x) 诱导 的 关于 X 的 分 布 , 那么, 可 以 改写 J(g) 为 i 
Hq) = D EG | log EP 


q(x) 
+ A>) Die(x)q(% | z)d(x,z) (10-118) 
+ Dole) Nal | x) (10-119) 
将 上 式 关于 Glo RAS, 我 人 有 
Fo = Poog EAP + pla) = Ppl aS | 2) Trp) 
+ Ap(z)d(x,x) + v(x) =0 (10-120) 
4 logu(z)=v(z)/p(z), 我 们 得 到 
p(2) | log ER + Ad(2,z) + logye(x) |= 0 (10-121) 
或 a ` 
g(a | 2) = ede (10-122) 
由 于 Dg(z |x) = 1, MVA 7 
w(x) = Dla)” (10-123) 
R - 
ee (10-124) 


q(x | 工 ) 一 Dalije Me 
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PRI p(x), 并 且 关 于 所 有 xz 求 和 , 可 得 


-Ad(x,x) 
az) = q(z)>) se a (10-125) 


Ë q(z)>0, 我 们 可 在 两 边 同 除 以 a(z), 从 而 对 任意 的 之 E 守 ,有 


-ad(x,x) 





(xe 


> EE 


将 这 | 款 | 个 方程 与 失真 的 定义 方程 联合 , 可 以 计算 出 4, 以 及 | 区 | 个 未 知 的 g()。 由 此 以 及 式 
(10-124) 可 求 得 最 优化 的 条 件 分 布 。 

WR g( 三 ) 是 无 约束 的 , 即 对 所 有 的 二, g(Z)>0, 则 以 上 的 分 析 是 有 效 可 行 的 。 不 等 式 条 件 
q(x) >0 可 由 库 恩 一 塔 克 条 件 来 表述 , 则 减 化 为 


(10-126) 


元 CT = 0% g(zlz)>0 
204 q(zlx)=0 (10-127) 
将 求 导 的 值 代 和 人 ，, 我 们 得 到 最 小 值 条 件 为 
able MO -1 车 g(i)>0 10-128 
T ala’ eee) atz) > (10-128) 
. <1 q(x) =0 (10-129) 


该 特性 使 我 们 将 问题 转变 为 检验 g(z ) 是 否 为 最 小 化 问题 的 一 个 解 。 然 而 , 要 从 这 些 方程 中 解 出 
最 优 输 出 分 布 却 很 困难 。 下 一 节 , 我 们 提出 一 个 计算 率 失真 函数 的 迭代 算法 。 该 算法 是 关于 计 
算 两 个 概率 密度 凸 集 间 的 最 小 相对 炉 距 离 的 一 般 算法 的 一 个 特殊 情形 。 : 


10.8 信道 容量 与 率 失 真 函数 的 计算 


考虑 下 面 的 问题 : AER" 中 两 个 凸 集 A 与 B, 如 图 10-9 所 示 , 希望 计算 它们 之 间 的 最 小 距离 ， 
dmin = „min d(a,b) (10-130) 
其 中 d(a,b) RR a 和 2 之 间 的 欧 几 里 得 距离 。 显 而 易 见 
的 一 种 算法 是 任 取 一 点 zE A, 找 出 与 它 距 离 最 近 的 一 点 
yE B。 然 后 再 固定 y, RE A 中 距离 它 最 近 的 一 点 , 重 = 
复 该 过 程 , 很 明显 , 该 距离 随 着 重复 次 数 的 增加 而 递减 。 
其 是 否 收 敛 到 两 个 集合 间 的 最 小 距离 ? Csiszár 与 Tusnady 
[155] 已 经 说 明 , 如 果 集 合 是 凸 的 , 以 及 距离 度量 满足 一 
定 的 条 件 , 则 这 个 交替 最 小 化 算法 确实 将 收敛 到 该 最 小 
值 。 特 别 地 , 若 两 个 集合 为 概率 分 布 之 集 , 而 距离 度量 是 相对 粹 ,那么 该 算法 的 结果 确实 收敛 到 
两 个 分 布 集合 间 的 最 小 相对 入 。 
要 将 此 算法 应 用 于 率 失真 , 我 们 还 需 将 率 失 真 函 数 改写 为 两 个 集合 间 的 相对 箭 的 最 小 值 形 
式 。 先 给 出 一 个 简单 的 引 理 。 该 引 理 的 另 一 种 形式 还 将 在 定理 13.1.1 中 再 次 出 现 ,， 它 建立 了 信 
道 容量 与 通用 数据 压缩 的 对 偶 性 。 
引 理 10.8.1 设 户 (z)p(y|jz) 是 给 定 的 联合 分 布 , 则 使 相对 灶 DCp(z)p(ylz)|zp(z)r 
(y)) 最 小 化 的 分 布 r(y) 是 对 应 于 plyl xc) ORDA r*(y), PP: 
D(p(2) p(y 1 x) ll p(z)r*(y)) = minD( p(x) p(y |x) || p(x) r(y)) (10-131) 


图 10-9 SRS 
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其 中 r*(y) = Pplz) p(y 1 x)。 同时 ， 


max p(x) py | z)log LY = Dex) ply l 2log Sa La ) (10-132) 
其 中 
r*( | 一 力 ( 工 ) 力 (y | zx) _ 
x| y) Sp(z) p(y a) (10-133) 
WAR: 
D(plzx)ply | x) ll p(x) r(y)) — DC p(x) ply | x) Il pCa) r* (y)) 
= = p(x)ply | log PA (10-134) 
- Dp(z)ply! xz)log 2O Lar) (10-135) 
y plx)r*(y) 
= Zp(zx)ply | x )log = (10-136) 
= Er (low Oy (10-137) 
= D(r* |r) (10-138) 
= 0 (10-139) 
引 理 第 二 部 分 的 证 明 留 作 练 习 。 口 
利用 该 引 理 , 可 将 率 失 真 函 数 的 定义 中 的 最 小 化 改写 为 双重 最 小 化 ， 
R(D) = min D Epl) | aog EAE (10-140) 
Mz) gliir); Dp sa, I}ED z i 


若 A 为 其 边际 分 布 p(z) 满 足 失 真 限制 的 所 有 联合 分 布 构成 的 集合 ,，B 为 乘积 分 布 p(x)r(z) 全 
体 构成 的 集合 , 其 中 r(z) 为 任意 , 则 我 们 有 

R(D) = min min D(p ilq) (10-141) 
下 面 应 用 交替 最 小 化 算法 , 称 为 Blahut-Arimoto 算法 。 先 选 定 某 个 *, 以 及 初始 输出 分 布 + (x)， 
然后 计算 在 失真 限制 下 使 互信 息 达到 最 小 的 g(z|x)。 对 于 该 最 小 化 问题 , 可 以 利用 拉 格 朗 日 乘 
子 法 得 到 


r(z)e Mr,z) 


Dr(a) 
由 此 条 件 分 布 glz), 利用 引 理 10.8.1 可 计算 得 到 使 互信 息 达到 最 小 的 输出 分 布 r-() 为 
r(z) = Dpla)qlz 1 zx) (10-143) 


以 此 输出 分 布 为 下 次 迭代 的 起 点 。 对 于 和 迭代 的 每 一 步 , 首先 关于 Cl ) 最 小 化 , 然后 关于 rC) 
最 小 化 , 均 使 得 式 (10-140) 的 右边 减 小 。 于 是 ， 这 个 最 小 化 过 程 必 然 存 在 一 个 极限 ， 且 Csiszár 
[139] 已 证 明 该 极限 为 R(D), 其 中 D 与 R(D) 的 值 依赖 于 *。 因 此 , 适当 地 选取 A, 就 可 以 描绘 
出 RHR. l 

类 似 的 过 程 可 以 应 用 于 信道 容量 的 计算 。 我 们 再 次 写 出 信道 容量 的 定义 ， 


一 Ly) = r(x) ply | z) 414 
C = maxI(Xs¥) = max) Zrt) ply | x)log ra) D(z) ply x) (10-144) 


g(x | x) = (10-142) 


由 引 理 10.8.1 可 将 上 式 写 成 双重 最 大 化 的 形式 ， 
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C = maxmax >) Dir(x) p(y | 2)log HY) (10-145) 


moet PAD 
IERT, Csiszár- Tusnády 算法 为 一 一 种 交替 最 大 化 : 先 猜测 最 大 化 分 布 >(z), 然后 求 出 最 佳 的 条 
件 分 布 , 即 由 引 理 10.8.1 可 知 , 这 个 条 件 分 布 即 
r(x) ply | x) T 
>)r(z)p(y1z) 
对 此 条 件 分 布 , 利用 拉 格 朗 日 乘 子 法 求解 带 约 束 的 最 大 化 问题 , 从 而 求 得 最 佳 的 输入 分 布 
r(xz)。 最 佳 输入 分 布 为 





q(x'l y) = 


JI (qla | y) P17) 


r(x) = 5 TI (atx | y) )2C1z) 


(10-147) 


我 们 可 以 此 作为 下 次 迭代 的 基础 。 

关于 信道 容量 与 率 失 真 函数 计算 的 这 些 算 法 是 由 Blahut[ 65] 与 Arimoto[25] 创 立 起 来 的 ， 
Csiszár [139] 证 明了 率 失真 计算 的 收敛 性 。Csiszhr 和 Tusnady 的 交替 最 小 化 算法 还 可 用 于 许多 其 
他 情形 , 其 中 包括 EM 算法 [166] 以 及 股市 中 寻求 对 数 最 优 投资 组 合 的 算法 [123]。 





习题 
10 1 单个 高 斯 随机 变量 的 1 比特 量化 。 设 X~N (0, 0°), 失真 度量 为 平方 误差 。 不 允许 分 组 描 


述 。 试 证 明 ; 1 比特 量化 的 最 佳 再 生 点 为 +A/ 2 o， 且 1 比特 量化 的 期 望 失 真 为 “0?。 


将 此 与 R=1 时 的 失真 率 上 界 D=0°2 EUR. ` 
10.2 具有 无 限 失 真 的 率 失真 函数 。 求 率 失真 函数 R(D)= minT(X; 义 ), HH, X~ Bernoulli 


(去 ) 且 失真 度量 为 
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10.3 


10.4 


10.5 


10.6 


0, r= 
d(z,47) =41, z=1,z=0 


œo, z=0,rz=1 


具有 非 对 称 失真 的 二 元 信 源 的 率 失 真 。 在 固定 的 p(x1x) 下 计算 I(X; 义 ) 与 D, 其 中 
X ~ Bernoulli( +) 


d(x,z) = | “| 


6 0 
QE: 率 失真 函数 R(D) 没 有 解析 表达 式 。) 
R(D) HR. 考虑 离散 信 源 XEX= 11,2,…,m|, 其 分 布 为 pj,p，,,…, pa， 失真 度量 是 
dli j) E R(D) 是 关于 该 信 源 与 失真 度量 的 率 失 真 函数 。 令 d'(i,j) = d(i,j) 一 wi 为 
一 个 新 的 失真 度量 ，R'(DD) 为 相应 的 率 失 真 函 数 。 证 明 R’(D)=R(D+w), Kf w= 
D pnw;， 并 由 此 说 明 假设 minsd (i,z)=0, 本 质 上 不 失 一 般 性 , 即 对 每 个 ced, ET 
以 零 失真 再 生 信 源 的 字符 z。 这 个 结果 得 归功 于 Pinkston[ 420]。 
具有 汉 明 失真 度量 的 均匀 分 布 信 源 的 率 失 真 。 考虑 在 集合 11,2,… ,mi} 上 均匀 分 布 的 信 源 
X。 若 失真 度量 为 汉 明 失 真 , 即 
` 0, 如 果 工 = 工 
dlet) = |1 ye AG 
求 该 信 源 的 率 失真 函数 。 
率 失 真 函 数 的 香农 下 界 。 考 虑 失真 度量 为 da(x,z) 的 信 源 X( 满 足下 列 性 质 ),， 且 失真 矩阵 
的 所 有 列 均 为 集合 fd1,d，,… ,dn| 的 置换 。 定 义 函 数 
$(D) = max H(p) (10-151) 


P: Ppd; <D 
关于 率 失 真 函 数 的 香农 下 界 [485] 可 依照 以 下 步 又 证 明 : 
(a) 证 明 $(D) 是 关于 D 的 四 函数 。 
(b) # Ed(X,X)<D, 验证 以 下 关于 I(X; 义 ) 的 一 系列 不 等 式 ， 


1(X;X) = H(X) - H(X | X) (10-152) 
= H(X) - Dp(z)H(X | X = 2) (10-153) 
> H(X) - 2)p(z)$(D;) (10-154) 
> H(X) - $( >) p(z)D;) (10-155) 
> H(X) - $(D) (10-156) 

HF D; = p(x! i)dlz,z)o 

(c) 证 明 
R(D) > H(X) - #(D) (10-157) 
此 即 率 失真 函数 的 香农 下 界 。 


(d) 另外 , 如 果 假 设 信 源 具有 均匀 分 布 , 且 失 真 矩阵 的 所 有 行 互 为 置换 ， 则 R(D)= 
H(X) -$8(D), 即 说 明 下 确 界 是 可 以 严格 达到 的 。 


10.7 控 除 失真 。 考 卡尺 一 Bemoulli( 方 ), 设 失真 度量 由 下 列 矩 阵 给 出 
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~ 0 1 œ 
d(x,z) = | 1 | 
计算 该 信 源 的 率 失真 函数 。 你 能 给 出 一 个 简单 的 方案 来 达到 该 信 源 的 率 失真 函数 的 某 个 值 吗 ? 
10.8 平方 误差 失真 度量 意义 下 的 率 失 真 函 数 的 界 。 考 虑 连续 型 随机 变量 X, 其 均值 为 0, 方差 
Ao’, 失真 度量 是 平方 误差 失真 度量 , 证 明 


h(X)- F log(2neD) <R(D) < Logg (10-159) 
对 于 前 半 不 等 式 , 考虑 图 中 所 示 的 联合 分 布 。 


Do?\ oD 
Z~N(0.255% o> 


(10-158) 


xX x 
k= ZP (x42) 
在 相同 方差 的 情况 下 ,对 高 斯 随机 变量 的 描述 比 其 他 随机 变量 更 难 还 是 更 容易 ? 
10.9 最 优 率 失真 码 的 性 质 。 满 足 R~R(D)NEM(R, DD) 率 失真 码 对 于 信 源 X RR” 的 
相互 关系 有 很 严格 的 限制 。 分 析 不 等 式 链 (10-58) 一 (10-71), 考虑 取 等 号 时 的 条 件 , 由 此 
可 对 一 个 好 的 码 所 应 具有 的 性 质 进行 解释 。 例 如 , 式 (10-59) 中 取 等 号 意味 着 X HX 的 
一 个 确定 性 函数 。 


10.10 $Ä, X= {1,2,…,2m| 上 的 均匀 分 布 , IF 
(xz) 一 | See ane 
, 0 r-r 为 偶数 
找 出 并 检验 关于 X 的 率 失真 函数 RR(D)( 可 能 要 用 到 香农 下 界 )。 
-r [re qx 
, 并且 | - = c。 定义 所 有 密度 上 的 g(a) = maxh(X), 








=z 


e X 


10.11 下 界 。 BX - 


e dz 


—% 


证 EX 入 a。R(D) 是 有 以 上 密度 以 及 失真 标准 d(x,z) = (x-z) 的 X 的 率 失真 函数 。 
证 明 R(D) > g(c) — g(D)o 
10.12 对 失真 矩阵 增加 一 列 。 设 R(DD) 是 一 个 i.i.d. 过 程 的 率 失真 函数 。 在 这 个 过 程 中 , 概率 


密度 函数 为 p(x) 以 及 失真 函数 为 d(x,zZ), EX, TEX. MERRAMMRE d(x, 
xo), eX BLS ARER io R(D) EH RER? 为 什么 ? 

10.13 Mie BBL =11,2,3,4), Y= 11,2,3,41, p=, 1=1,2,3,4, 并 且 Xi, Xz，… 为 
i.i.d.~ plz). KAR d(x,x)k0F 








> Q YF me 

= e O> ooje 
= = CO OJIN 
SD Oo e mej 
o o em.e F/R 


w 
w 
oo 


Ww 
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10.14 


10.15 


10.16 


(a) 求 出 描述 零 失真 过 程 所 必需 的 率 R(0). 


(b) 求 出 率 失真 函数 R(D)。 在 字母 表 计 和 计 中 有 一 些 不 相关 特性 会 导致 问题 失败 。 

(c) 假设 有 一 个 不 均匀 分 布 p(i)= pi, 1=1,2,3,4。 求 此 时 的 R(D)。 

两 个 独立 信 源 的 率 失真 。 同 时 压缩 两 个 独立 信 源 会 比分 开 压缩 好 吗 ? 下 面 的 问题 阐述 了 
这 个 问题 。 令 1X;| 为 i.i.d. 一 p(xz), RAW d(z,x), 率 失 真 函数 为 Rx(D)。 同 时 , + 
(YA iid. ~ply), 失真 为 d(y,y), 率 失 真 聘 数 为 Ry(DD)。 假设 希 望 在 失真 Ed(X， 
X)<D, MEd(Y,Y)<D, 的 条 件 下 描述 过 程 1(X;, Y; lo TÆ, X Rx,y(Di D) Æ 
T, 其 中 

I(X,Y;X,Y) 


Rx,v(D1,D,) = ES rope eee, monen, 
BAB LX; | AY; | eB 
(a) 证 明 Ry y(D,,D2)=Rx(D;) + Ry(D2) 
(b) 等 式 成 立 吗 ? 
现在 回答 这 个 问题 。 
率 失真 函数 。 率 失真 本 数 定义 为 

D(R) = 

(a) D(R) 关 于 R 的 增 减 性 如 何 ? 
(b) D(R) 关 于 R FEC PRB FEE) PRK? 
(c) 逆 率 失真 函数 ;: 通过 D(R) 来 证 明 率 失真 函数 的 道 。Xi ,X2，…,X。 是 i.i.d. 一 p(x)。 
BU (28 , nn) RA Xil X") > X"(i(X")), Bix") © 2”, 假设 以 失真 D= 
Ed(X",X"(i(X"))) 为 结果 。 我 们 必须 证 明 DSD(R). Ait FEH RAR: 


Ed(X,X) (10-160) 


min 
Pla) HX; KSR 


D = Ed(x”,X"(i(X"))) (10-161) 
@p+y)a(x,.X,) (10-162) 
L L Y EAX, X) (10-163) 
SES) DUXX) (10-164) 
Sp(49)1(x;5%,)) (10-165) 
SD (r(x";K")) (10-166) 
ZDR) (10-167) 


条 件 典 型 序列 的 概率 。 在 第 7 章 中 , 我 们 计算 了 两 个 独立 抽取 的 序列 X” SY 为 弱 联 合 
典型 的 概率 。 然 而 , 为 了 证 明 当 其 中 一 个 序列 固定 而 另 一 个 序列 随机 的 率 失真 定理 , 我 
们 需要 计算 该 概率 。 弱 典型 性 技巧 允许 我 们 仅 计算 条 件 典 型 集 的 平均 集合 大 小 就 足够 
T. 而 另 一 方面 , 利用 强 典型 性 的 思想 , 可 以 得 到 针对 所 有 典型 的 a” 序列 的 更 强 的 界 。 
我 们 将 会 给 出 对 所 有 典型 的 z, Pril, YEA a2 OGP EER, AFE 
是 由 Berger[53] 提 出 的 , 并 在 Csiszár 与 Korner 的 书 [149] 中 得 到 了 完全 的 发 展 。 

设 (X;, YA iid. ~ plesy), X FY 的 边际 分 布 分 别 为 p(xz) 与 p(y)。 

(a) RAZ” AX 的 强 典 型 集 。 证 明 
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| A2 (7) |= 2H) (10-168) 
(提示 : 利用 定理 11.1.1 与 定理 11.1.3。) 
(b) 序列 对 (x”, yy") 的 联合 型 是 指 (xz;,y;) = (a,5) 在 序列 对 中 出 现 次 数 的 比例 , 即 ; 


pr',y(a,b) = TN(a,b | x,y”) = LS Ka; = aá, Ņ% = b) (10-169) 
i=1 


在 给 定 z F, 序列 y 的 条 件 型 指 一 个 随机 矩阵 , 其 中 的 元 素 代表 着 》 的 字符 b 
与 和 中 字符 a 在 二 重 序列 (xz*,) 中 出 现 次 数 与 a 在 序列 z 中 出 现 次 数 之 比 。 具 体 
HE, 条 件 型 Vy) (bla) EH 


lb la) = Nobla y") 
Vy (b la) Nala) (10-170) 
证 明 条 件 型 的 总 数 有 上 界 (n +1)!41! 


(c) 关于 序列 2” 具有 条 件 型 V 的 所 有 序列 y EV 构成 的 集合 称 为 条 件 型 类 , 记 作 
Ty(2")o WEAR 





ape” <I Tyla") |K FYD (10-171) 


(d) 称 序列 y CY" 在 给 定 序列 FATRIS V(- | E e 强 条 件 典型 的 , 如果 条 件 
型 接近 于 V。 具 体 讲 , 条 件 型 应 满足 下 列 两 个 条 件 : 
(i) 对 任意 (a,5)EXXxY, H V(bla)>0, W 


L I N(a,b | a",3") — V(b l a)N(a | 2") <y (10-172) 
(ii) 对 任意 (a,5)EXXY, A V(bla)=0, M N(a, biz, y")=0. 
满足 上 述 条 件 的 全 体 序列 y 构成 的 集合 称 为 条 件 典 型 集 , AA (Y|) WHA 
当 给 定 ct CAN, 关于 条 件 典 型 的 序列 y 的 数目 可 以 定 界 如 下 


Gaye <I AZ“? (Y | xz") I< (n + 1) XY gn HYIX)+e) (10-173) 


Hp e>0 时 , e1 一 0。 
(e) 对 于 联合 分 布 为 p(x,y) 的 一 对 随机 变量 (X,Y), e 强 联合 典型 集 A: ("定义 为 满足 
. 下列 条 件 的 序列 (zx”,y")EX"xJ* 构成 的 集合 
(i) 对 于 每 一 对 (a,5)EXXY, H p(a,5)>0, 则 


1 nona — E _ 
SNC, b | x”, y") — pla,b)| < rae (10-174) 


(ii) WHER (a, b)EXXY, H p(a,b)=0, WW N(a,b|x",9") =0. 
所 有 e 强 联合 典型 序列 构成 的 集合 称 为 e 强 联合 典型 集 , AA (X,Y). OX, 
Y) 为 服从 p(x,y) 且 独立 同 分 布 。 对 于 任何 x", 如 果 至 少 存在 二 重 序列 (zx",y')E 
AL (X,Y), EE, y) EAO 的 全 体 序列 y? 构成 的 集合 满足 


Grn oa < | Iyl”, y") E An | < (n + 1)'*! IY ig n(H(Y1X)+8(e)) 
(10-175) 

其 中 当 ON, Oe) 0. Hal, RNA 
Qn Hy! X)-e,) < | {y"3(2",y") E AZ} | < 27(H(YIX)+e,) (10-176) 


其 中 ， 适当 选取 € 5n, 可 以 使 E2 任意 地 小 。 


343 
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10.17 


10.18 


10.19 


10.20 


(f) BY, Yo, Yn iid. ~ ply)o XI EAZ, WER Ca”, YEAS 的 概率 
可 以 定 界 为 
QP) L Pe(( a", Y) € ALM) 27 MOG Y)-e5) (10-177) 
其 中 当 e0, n> ont, e3 F 0. 
带 失 真 的 信 源 信道 分 离 定理 。Vi，Vz,…，VW, 是 有 限 字母 表 iid. 信 源 , 编码 为 离散 无 
记忆 信道 的 一 列 个 输入 信号 六。 信道 Y 的 输出 映射 为 重 构 字 母 表 V”" = g(Y")。 这 个 


联合 信 源 和 信道 编码 方法 的 平均 失真 为 D = EdV", V") = ED EdV, VD. 


VIX") 信道 容量 C y"——» pr 


(a) 证 明 : 如 果 C>R(D), R(D) 是 V 的 率 失 真 函数 , 可 能 找到 编码 器 和 译 码 器 得 到 一 
个 任意 接近 于 D 的 平均 失真 。 
(b)( 道 ) 证 明 : 如 果 平 均 失真 等 于 D, 信道 的 容量 C 一 定 大 于 R(D)。 
率 失真 。d(z,Z) 是 一 个 失真 函数 , (FR XX~p(z),，R(D) 是 相应 的 率 失 真 函数 。 
(a) 对 于 常数 a >0, 与 失真 4(x,z)= d(x,X)+a 相关 的 率 失 真 函数 是 及 (D)。 用 
R(D) 来 表示 R(D) (EMA) 
(b) 假设 对 所 有 的 x Az, d(x,z) 之 0, 定义 一 个 新 率 失 真 孙 数 d* (2,2) = bd(x,x), 
其 中 b 宇 0。 用 R(D) 表 示 相 应 的 率 失 真 函 数 R” (D)o 
(c) & X~N(0,07), d(xz,x)=Sx-x)*+3, KR R(D)_ 
带 两 个 限制 的 率 失 真 。 令 XX 为 i.i.d. ~p(z). FHATRABM di (zz) 和 d(x, 
工 )。 我 们 希望 用 码 率 R KR X", 并 且 用 失真 E d,(X", X})<D, M E di (X",83)S 
D: 重 构 如 下 : 
X” —> i( X") — (XI(i), X23(i)) 
D, = Ed (Xi, K5) 
D, = Ed, (Xi, X3) 
这 里 ;(') 取 2 嗓 个 值 。 求 出 率 失真 函数 R(D,,D2). 
率 失 真 。 考 虑 标准 率 失 真 问题 , 令 X Hiid ~ p(X), X*>i(X)>X", SRMTRH 
标准 (2,2) #0 dz (2,2)0 BRM FRA EX, LEXA A (2,2)<dy(2,2). 
Ri(DD) 和 R,(D) 是 响应 率 失真 函数 。 
(a) RE RI(D) 和 R,(D) 之 间 的 不 等 式 关系 。 
(b) 假设 必须 以 dy (X", X4)<D Md (X , X3)<D 的 最 小 码 率 R 描述 源 {X,| ,那么 
l frico 
ey ACC a) 


ARC) =2%, RMS R. 


历史 回顾 
率 失真 的 思想 来 源 于 香农 的 开创 性 论文 [472]。 他 在 1959 年 的 文章 [485] 中 又 回顾 该 问题 ， 


并 作 了 详尽 的 论述 , 证 明了 率 失真 第 一 定理 。 同 时 , 在 前 苏联 , 科 尔 莫 戈 罗 夫 和 他 的 学 派 从 1956 


年 也 开始 研究 率 失真 理论 。 对 更 一 般 的 信 源 , 关于 率 失真 定理 的 更 强 的 结论 已 经 在 综合 性 著作 
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Berger[ 52] 中 得 到 了 证 明 。 

McDonald 与 Schultheiss [381] 给 出 了 关于 并 联 高 斯 信 源 的 率 失真 函数 的 反 注 水 法 解 。 对 于 一 [345 
般 的 独立 同 分 布 信 源 与 任意 的 失真 度量 ，Blahut[65]，Arimoto[25] 与 Csiszar[139] 给 出 了 计算 率 
失真 函数 的 迭代 算法 。 该 算法 是 一 般 交 替 最 小 化 算法 的 一 个 特殊 情形 ,也 是 Csiszár 与 Tusnady 
在 [155] 中 提出 的 。 346 





第 11 章 ， 信 息 论 与 统计 学 


本 章 将 阐述 信息 论 与 统计 学 之 间 的 关系 。 我 们 从 型 方法 的 描述 入 手 , 它 是 研究 大 偏差 理论 
的 一 个 强 有 力 的 工具 。 我 们 不 仅 要 使 用 型 方法 来 计算 稀有 事件 的 概率 以 及 证 明 通 用 信 源 码 的 存 
在 性 , 还 要 考虑 它 在 假设 检验 问题 中 的 应 用 , 利用 它 可 获得 此 类 检验 的 最 佳 可 能 误差 指数 
(Chernoff-Stein 引 理 )。 最 后 ,我 们 讨论 分 布 的 参数 估计 问题 ,并 且 描 述 费 希 尔 信息 在 统计 学 中 的 
重要 作用 。 


11.1 型 方法 


离散 型 随机 变量 序列 的 AEP( 第 3 章 ) 将 我 们 的 注意 力 集中 于 由 典型 序列 构成 的 一 个 小 子 集 
上 。 一 种 更 强 有 力 的 方法 是 型 方法 , 将 考虑 具有 相同 经 验 分 布 的 序列 集合 。 在 此 限制 之 下 , 可 以 
对 具有 特定 经 验 分 布 的 全 体 序列 构成 的 集合 的 数目 以 及 该 集合 中 每 个 序列 的 概率 都 给 出 很 强 的 
界 估计 。 于 是 , 我 们 不 仅 可 以 导出 信道 编码 定理 的 强 误差 界 , 而 且 可 以 证 明 一 系列 率 失真 的 结 
E, Csiszár 和 Ksrner[149] 给 予 了 型 方法 充分 的 发 展 , 他 们 在 该 领域 中 的 大 部 分 研究 成 果 都 是 基 
于 这 种 观点 获得 的 。 

HEX, Xo, X, HHA FERRY = {a1,as，…,alxI} 的 x 个 字符 所 成 的 序列 。 我 们 将 交替 
使 用 记号 x? 和 x 来 表示 序列 zi, zz，…,zno 

定义 ”序列 zi ,za，…,z, 的 型 (type)P,( 或 经 验 概率 分 布 ) 是 起 中 的 每 个 字符 在 该 序列 中 出 现 
次 数 的 相对 比例 (对 任意 的 aEX，P.(a)= N(a|x)/n, 其 中 N(alx) 表 示 字 符 a 在 序列 xe An 
中 出 现 的 次 数 )。 

一 个 序列 x 的 型 记 为 P,。 它 是 七 上 的 一 个 概率 密度 函数 。( 注 意 在 本 章 中 , 我 们 使 用 大 写字 
母 表示 型 和 分 布 , 而 用 不 太 精 确 的 词 分 布 来 表示 概率 密 x, 
度 函 数 。) 

定义 及 ”中 的 概率 单纯 形 (probability simplex) Æ 
所 有 满足 x= (245209 Im) ER”, xz; 20, dae, =1 peee 
的 点 组 成 的 集合 。 

概率 单纯 形 是 m 维 空间 中 的 m -1 维 流 形 。 当 
m=3 时 , 该 概率 单纯 形 是 集合 {(zi,zz,zs):zi 之 0， 
r20, x320, x; + 22+ z3= 1| (R 11-1) HTER® * 
中 该 单纯 形 正 好 是 平面 三 角形 , 因此 , 在 本 章 的 下 面 内 图 11-1 R? 中 的 概率 单纯 型 
容 中 我 们 以 三 角形 表示 概率 单纯 形 。 

EM iP, 表示 分 母 为 n 的 所 有 型 构成 的 集合 。 

例如 , HX=10, 1}, 那么 分 母 是 n 的 所 有 可 能 的 型 所 成 之 集 为 

- 0 
P = (P0, Pa): (2,2), (4,2), (2,2) (11-1) 


EX #PEP,, 那么 长 度 是 n 且 型 为 P 的 序列 全 体 称 为 已 的 型 类 (type class), 记 为 T(P): 
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T(P)= {x€EXr:P,= P|} (11-2) 
型 类 有 时 称 作 P 的 组 分 类 (composition class)。 
例 11.1.1 BX = |1,2,3| 是 一 个 三 元 字母 表 。 令 x=11321, WÆ P, A 


P=, P\2)= 5, P3)=4 (11-3) 


易 知 , 型 P, 的 型 类 为 长 度 是 5 且 含 有 3 个 1,1 个 2 和 1 个 3 的 所 有 序列 构成 的 集合 。 在 此 型 类 
H, 有 20 个 不 同 的 序列 ,， 即 
T(P,) = 111123,11132,11213,…,321111 (11-4) 
TT(P) 的 元 素 个 数 为 
/5 sl 
ITCPI= (33153 1! 1! 
型 方法 的 基本 功能 可 由 下 面 的 定理 得 到 体现 , 它 表 明 型 的 数目 至 多 是 关于 n 的 多 项 式 。 
定理 11.1.1 


=20 (11-5) 


IP.l<(n+1)!*! (11-6) 

证 明 : 若 用 向 量 来 表示 Po 那么 向 量 含 | 蕊 | 个 分 量 。 每 个 分 量 可 取 nn +1 个 不 同 的 值 ， 因此 ， 

对 于 型 向 量 至 多 有 (n+1)!*! 种 选取 。 当 然 , 这 些 选 取 并 不 是 独立 的 (例如 , 向 量 的 最 后 一 个 分 量 

的 选取 由 其 余 分 量 而 确定 )。 但 是 , 这 对 我 们 的 实际 需要 来 说 已 是 一 个 相当 好 的 上 界 佑 计 了 。 O 

以 上 的 关键 之 处 是 型 的 数目 关于 长 度 n 是 多 项 式 级 的 。 由 于 长 度 为 ”的 序列 的 总 数 关于 

以 指数 级 变化 ,所 以 , 至 少 存在 一 个 型 , 使 它 的 型 类 中 的 序列 个 数 是 指数 级 的 。 事 实 上 , 在 一 阶 
指数 意义 下 ， 最 大 的 型 类 与 全 体 序列 所 成 之 人 的 元 素 个 数 本 质 上 相同。 

下 面 假定 序列 X1,X，,…,X, 为 i.i.d. 且 服 从 分 布 Q(z)。 如 下 的 定理 表明 对 于 具有 相同 型 


的 全 体 序列 , 它们 的 概率 均 相等 。 其 中 令 Q"(2") = TI ac) ,表示 关于 Q 的 乘积 分 布 。 


定理 11.1.2 # Xi ,X2，…，X， 为 i.i.d. 且 服从 分 布 Q(z)， 则 x 的 概率 仅 依 赖 于 它 的 型 ， 
且 有 等 式 


Q"(x) = 27 2(H(P,) + DE, | Q)) (11-7) 
WRA: 
a(x) = TI Q(z) (11-8) 
= TI Qane» (11-9) 
aE X 
= [| Q(a)? (11-10) 
aE X 
= [I 27a) (11-11) 
aE X 
= TI gn P,(a)bogQ(a)~P,(a)bgP,(a)+P,(a)logP,(a)) (11-12) 
at X 
an YOP oeg * Pade? (a)) (11-13) 
= on(-D(P, | Q)-H(P)) (11-14) 
推论 若 x 在 QQ 的 型 类 中 ,， 则 
Q"(x) =2-"H(Q) (11-15) 
HERA: 若 xET(Q), 则 P,=(Q), 将 此 代入 式 (11-14) 即 可 得 推论 的 结果 。 口 


例 11.1.2 PUPR—-BUSST, 产生 长 度 是 n 的 特定 序列 , 其 般 子 每 个 面 所 出 现 的 次 数 丛 


© 





u 
un 
© 


pà 
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好 都 是 n/6(n 为 6 的 倍数 ), 则 显然 该 序列 的 概率 为 2- 虽 (于 二 和 洁 ) =6-*。 若 散 子 的 概率 密度 函 
数 为 ( 广 , 广 ,二 ,十 :十 '0)， ?是 12 的 倍数 , 则 要 观察 到 一 个 特定 的 序列 使 得 角子 每 面 出 现 频率 


恰好 与 概率 密度 一 致 ,这 一 事件 的 概率 正好 为 2- 中 (3.3 导 ,页 十"0) 。 这 是 相当 有 意思 的 事 。 
下 面 给 出 关于 型 类 T(P) 大 小 的 估计 。 
定理 11.1.3( 型 类 T(P) 的 大 小 ) 对 于 任意 型 PEP,， 
< T(P) |<cgnHP) (11-16) 
证 明 : T(P) 的 精确 大 小 很 容易 计算 ,， 它 只 是 个 简单 的 组 合计 数 问题 一 -在 序列 中 分 别 排列 
nP(a1),nP(ay),…,nP(alx|) 个 相同 物体 的 排列 方式 数 ， 即 
n 
ITCP) = (PCa), nPlaz) ap(aa) (11-17) 
但 以 上 这 个 数 操作 起 来 是 困难 的 , 因此 , 我 们 给 予 该 值 一 个 简洁 的 指数 界 估计 。 
对 于 指数 界 , 推荐 使 用 如 下 的 两 种 不 同 证 明 方法 。 对 于 第 一 个 证 明 , 使 用 斯 特 林 公式 [208]， 
对 阶乘 函数 进行 界 估计 , 然后 通过 代数 运算 , 可 得 到 定理 中 给 出 的 界 。 现 给 出 另 一 个 证 明 。 先 来 
证 明 上 界 。 因 为 一 个 型 类 的 概率 必 <1, 则 由 定理 11.1.2, 可 得 








1 2=P"(T(P)) (11-18) 
= >) P(x) (11-19) 
xE T(P) 
= >) 2HP (11-20) 
x€ T(P) 
= | T(P) |27 P) (11-21) 
于 是 
| T(P) K2"P) (11-22) 
而 对 于 下 界 , 首先 证 明 在 概率 分 布 P 下 , 型 类 T(P) 在 所 有 的 型 类 中 具有 最 高 的 概率 : 
P°(T(P))2SP"(T(P)) MER PEP, (11-23) 
考虑 对 概率 比值 进行 下 界 估计 ， 
T P P nP(a) 
pr(T(P)) _ | T(P) 县: (a) l (11.24) 
PT(P)) | TCP) 1 [ Pla)®® 
ae X 
n nP(a) 
= (etad, nan naa PO (11-25) 
n nP(a) 
(Pa), aPla Plan PO 
_ Tr (nP(a))! n(P(a)-P(a)) - 
= ll Banio -$ (11-26) 
用 一 个 简单 的 不 等 式 (通过 对 mn Aim<n 分 别 讨论 容易 得 证 ) 
mi nn (11-27) 
ni 
由 此 可 得 


P"(T(P)) nP(a)-nP(a) n(P(a)-P(a)) 2 
PTB) > LOPO P(a) (11-28) 
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= 本 ja(P(a)-P(a)) (11-29) 
aE X 
= n” ge BPD (11-30) 
= 2rd (11-31) 
=1 (11-32) 
因此 , P"(T(P)) 之 P"(T(P))。 现 在 根据 这 个 结论 就 容易 得 到 下 界 , 这 是 因为 
1= >) P'(T(Q)) (11-33) 
Qep, 
< >，maxP"(T(Q)) (11-34) 
aP, ° 
= Š P"(T(P)) (11-35) 
Qep, 
<(n+1)'*'!P"(T(P)) (11-36) 
= (n+1)!*! SY P(x) (11-37) 
x€ T(P) 
= (n+ 1)'#' D 2-nH(P) (11-38) 
xE T(P} 
=(n+1)!*!| T(P) |27 P (11-39) 
其 中 式 (11-36) 可 由 定理 11.1.1 得 到 , 式 (11-38) 由 定理 11.1.2 得 到 。 口 


对 于 二 元 情形 , 我 们 给 出 一 个 稍微 好 些 的 近似 估计 。 
例 11.1.3( 二 元 字母 表 ) 在 此 情形 ,型 可 由 序列 中 出 现 1 的 个 数 完 全 确定 下 来 ,因此 ,型 类 
的 元 素 个 数 为 { ” ) , 现 来 证 明 
alt) < <2) (11-40) 
若 使 用 阶乘 函数 的 斯 特 林 近似 公式 ( 引 理 17.5.1), 以 上 不 等 式 得 到 证 明 。 但 我 们 给 出 如 下 的 更 
为 直观 的 证 明 。 
首先 证 明 上 界 部 分 。 由 二 项 公式 ,对 任意 的 p， 


HOSPI, 上 述 和 式 中 的 所 有 项 均 为 正 , 故 每 项 必然 不 超过 1。 令 p= 2, BRE 项 ,可 得 
(VE ae 
= (© Joti re | (11-43) 
- ( Jan (tek t hee) (11-44) 
-= (7j) (11-45) 

因此 ， 
(”)<om(a) (11-46) 


而 对 于 下 界 部 分 , 设 S 为 随机 变量 , 它 服从 参数 n Mp 的 二 项 分 布 。S 的 最 可 能 取 值 是 
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S=(np), 这 易 由 下 面 的 事实 











P(S=it+ -i 
SHD i i (11-47) 
及 分 别 考虑 i< np Mi>np 情形 得 到 证 明 。 由 于 二 项 和 式 中 有 n +1 项 , 则 
1= S jz (1- Pp)" (n+1) max(” jp -py (11-48) 
=a 00") Jea pe (11-49) 
$ p=, WE 
k n-k 
1<(n+1)(")(4) (1-4) (11-50) 
由 式 (11-45) 中 给 出 的 论证 , 这 等 价 于 
as (Fae) (11-51) 
或 
nH 
("ay a132) 
综合 以 上 两 个 结果 , 可 知 
(")zom(@) (11-53) 


A RAOR nN, 可 以 得 到 更 精细 的 界 ， 见 定理 17.5.1。 
定理 11.1.4( 型 类 的 概率 ) 对 任意 PEP, 及 任意 分 布 Q， 型 类 T(P) 关 于 Q 的 概率 在 一 
阶 指数 意义 下 等 于 2-(F1Q)。 更 确切 地 讲 ， 


arpa ID<Qr(T(P))<27 PPID (11-54) 
证 明 : 由 定理 11.1.2, 可 得 
Q"(T(P)) = 2 rw (11-55) 
= 2, 27O | Q)+HCP)) (11-56) 
=| T(P) (27-2 | Q)+ H(P)) (11-57) 
再 利用 定理 11.1.3 获得 的 关于 | T(P)| 的 界 估 计 , 可 知 

apa Pe! V<Q"(T(P))<2~ PP! Q) (11-583) 

我 们 可 以 把 有 关 型 的 基本 定理 用 如 下 的 四 个 方程 来 概括 : 
1DP, [<(n + 1)% (11-59) 
Qr(x) =27 nD(P, | Q)+H(P,)) (11-60) 
| T(P) |=2"P) (11-61) 
Q'(T(P))=27 PP! @ (11-62) 


这 些 方程 表明 : 型 的 数量 仅 是 多 项 式 级 的 ， 而 每 个 型 对 应 的 序列 的 数量 是 指数 级 的 。 对 于 任意 的 
型 为 P 的 序列 关于 分 布 Q 的 概率 , 我 们 给 出 了 它 的 精确 公式 。 而 对 于 一 个 型 类 的 概率 , 我 们 给 
出 的 是 一 个 近似 公式 。 
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基于 序列 的 型 的 性 质 , 这 些 方程 使 得 我 们 可 以 计算 出 长 序列 的 行为 。 例 如 , 对 于 服从 某 个 分 
布 的 i.i.d. 长 序列 , 序列 的 型 接近 于 产生 该 序列 的 分 布 , 因而 , 我 们 可 以 使 用 这 个 分 布 的 性 质 来 
估计 序列 的 有 关 性 质 。 在 接 下 来 的 几 节 中 将 处 理 一 些 应 用 问题 ,讨论 的 主题 如 下 : 

。 大 数 定律 

。 通用 信 源 编码 

。 Sanov 定理 

。 Chernoff-Stein 引 理 与 假设 检验 

。 条 件 概率 与 极限 定理 


11.2 大 数 定律 


有 了 型 和 型 类 的 概念 , 我 们 可 以 给 出 大 数 定律 的 另 一 种 陈述 。 事 实 上 , 利用 它们 可 给 出 离散 
情形 时 一 种 弱 大 数 定律 形式 的 证 明 。 型 的 最 重要 的 性 质 是 : 型 的 数量 仅 为 多 项 式 级 , 而 每 个 型 的 
序列 数量 为 指数 级 。 由 于 每 个 型 类 的 概率 以 指数 依赖 于 型 已 和 分 布 Q 之 间 的 相对 粹 距离 , 所 以 ， 
对 于 远离 真实 分 布 的 型 类 的 概率 依 指数 衰减 。 

给 定 e>0, 对 于 分 布 Q", 定义 由 序列 构成 的 典型 集 Te 为 


Tg = 1x": D(P, || Q)<e} (11-63) 
则 不 是 典型 序列 的 z 的 概率 是 
1- Q"(Ta) = ,2 et (FOP) (11-64) 
< ps ® (定理 11.1.4) (11-65) 
< >) 2” (11-66) 
(n+ D2 (288 11.1.1) (11-67) 
= 2-n(e-ixeeath ) (11-68) 


X ”~>co 时 ， 上 式 趋 于 0。 因 此 , Snook, 典型 集 Th 的 概率 趋 于 1。 这 类 似 于 第 3 章 中 所 证 
明 的 AEP, 它 是 弱 大 数 定 律 的 又 一 形式 。 现 在 来 证 明 经 验 分 布 Px 收敛 于 P。 
定理 11.2.1 BX, Xo, X, A iied p(x), A 


Pri DCP, || P) >e} <27” (e XIE? ) (11-69) 
进一步 可 知 ，D(P. || 已) 一 0 依 概率 1 成立。 
TERA: 不 等 式 (11-69) 已 于 式 (11-68) 得 到 证 明 。 现 在 关于 n ORAM, 可 得 
> Pri DCP; | P) >e} < oo (11-70) 
于 是 , 对 于 所 有 的 n, 出 现 事件 {D(P, || P) > el 次 数 的 期 望 值 是 有 限 的 , 也 就 是 说 事件 {D(P, || P) 
> 的 出 现 次 数 依 概率 1 是 有 限 的 (Borel-Cantelli 引 理 )。 因 此 , 依 概率 1 有 DOP || P)>-0. 口 


我 们 下 面 定 义 一 个 比 第 3 章 中 更 强 的 典型 性 。 
定义 “将 强 典型 全 AS” 定义 为 在 区 " 中 所 有 样本 频率 接近 于 真实 频率 的 序列 构成 的 集合 : 
LN(alx) ~ Pa) <i MR Pa | 


N(alx)=0 mR P(a)=0 
于 是 , 该 典型 集 包含 所 有 这 样 的 序列 , 它们 的 型 的 任何 组 分 与 相应 的 真实 概率 值 的 误差 不 超过 
e/| 世 |。 由 强大 数 定律 , 可 以 得 到 当 zx 一 co 时, 强 典 型 集 的 概率 趋 于 1。 在 证 明 更 强 的 结果 中 , 特 





ae (11-71) 
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别 是 在 通用 编码 、 率 失真 理论 和 大 偏差 理论 中 , 由 强 典 型 性 所 能 提供 的 附加 功能 是 很 实用 的 。 
11.3 通用 信 源 编码 


利用 替 夫 曼 编 码 将 已 知 分 布 为 p(xz) 的 i.i.d. (ARSE SIA 吾 (X)。 如 果 针 对 某 个 不 
正确 的 分 布 gc(z) 进 行 的 编码 , 那么 将 招致 D(p | ca) 的 处 罚 。 因 此 , 赫 夫 曼 编 码 对 分 布 的 假定 是 
敏感 的 。 

车 真实 分 布 p(x) 未 知 , 那么 压缩 可 达到 何 种 程度 ? 是 否 存在 速率 为 R 的 通用 码 , 使 它 可 以 
FATA H(X)<R 的 任何 i.i.d. (FR? 答案 令 人 惊奇 地 是 ,确实 存在 。 该 思路 基于 型 方法 。 
型 为 P 的 序列 有 2 个 。 由 于 长 度 为 ”的 型 的 总 数 仅 是 多 项 式 级 的 , 所 以 , 将 所 有 型 为 PrE 
WEH(P2)<R 的 序列 2" 枚 举 出 来 只 需要 大 约 nR 比特 。 于 是 , 为 了 描述 所 有 这 样 的 序列 , 给 出 
一 个 可 以 描述 任何 可 能 来 自任 意 分 布 Q BR HR 的 序列 的 模式 。 下 面 先 给 出 一 个 定义 。 

定义 ”对 于 一 个 服从 未 知 分 布 Q 的 信 源 Xi ,XX,,…,X,, BEA R 的 分 组 码 包 括 两 个 映射 ， 
即 编码 器 


万: 一 22 到 | (11-72) 
和 译 码 器 
pa: 41,2777, 2E] >n (11-73) 
这 里 的 R 称 作 码 率 。 关 于 分 布 Q 的 编码 的 误差 概率 为 
P = Q*(X": $f, (X") FX") (11-74) 


定义 ”对 于 某 个 信 源 , 称 其 速率 为 R 的 分 组 码 是 通用 的 (universal),， 若 函数 f, Me, 不 依赖 
于 分 布 Q, HF R>H(Q), 则 当 nok}, P0. 

现在 我 们 叙述 由 Csiszár 和 Kermer[149] 给 出 的 通用 编码 方案 , 所 依据 的 事实 是 : 型 为 的 序 
NA BCE LAA BCS EA; 而 型 的 个 数 仅 是 多 项 式 方 式 增长 的 。 

定理 11.3.1 存在 一 列 通 用 信 源 码 (2 中 ,n), 使 得 对 满足 HKR 的 任何 信 源 Q, 有 PI" ->0。 

证 明 : 固定 编码 速率 R, 令 


R,=R- jx +1) (11-75) 
考虑 序列 集 
= {xE€X":H(P,)<R,} (11-76) 
则 

1A1= 2 ITP) (11-77) 

PEP, :H(PISR, 
< > 2H (11-78) 

PEP: H(PISR, 
< DD 2 (11-79) 

PEP , :H(P)ER, 
<(nt1)'¥!2%, (11-80) 
= 27 (R, + æa ) (11-81) 
=2"R (11-82) 


将 A 中 的 全 体 元 素 编 下 标 , 定义 编码 函数 f, 如 下 
E= * 在 人 中 的 下 标 ”如 果 xE A 


11-83 
否则 (11-83) 
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译 码 函数 则 是 将 每 个 下 标 映 射 为 A 中 的 相应 元 素 。 因 此 ，A 中 的 所 有 元 素 可 准确 无 误 地 被 
恢复 , 而 其 余 所 有 序列 都 将 产生 一 个 误差 。 能 被 准确 恢复 的 序列 组 的 示意 见 图 11.2。 

现 来 证 明 此 编码 方案 是 通用 的 。 假 定 Xi ,X,,…, X, 服从 分 布 Q, 且 H(Q)<R, 则 译 码 误 
差 概 率 为 


PY? =1- Q"(A) (11-84) 
= TCP) (11-85) 
入 (2+1) max Q(T(P)) (11-86) 
<(n 于 1) X12 nmin, p>rD(P Il Q) ; (11-87) 


由 于 R *R A H(Q)<R, WEE n, 对 所 有 n>n, A R>H(Q). FH, X n>n, 
min D(P || Q) 必 大 于 0, 故而 当 noo}, 误差 概率 PO 以 指数 衰减 到 0。 


P:H(P)>R, 


ATi, BAA Q WH Q) 大 于 码 率 , 那么 序列 所 拥有 的 型 在 集合 A 之 外 这 个 事件 将 
以 极 大 的 概率 成 立 。 因 此 , 此 时 的 误差 概率 接近 于 1。 
误差 概率 的 指数 为 
DR,a= „min D(P || Q) (11-88) 


P:H(P)>R 


如 图 11-3 所 示 。 口 


误差 指数 





HQ) 码 率 
图 11-2 通用 编码 与 概率 单纯 形 图 11-3 通用 码 的 误差 指数 


以 上 所 述 的 通用 编码 方案 仅 是 许多 通用 方案 中 的 一 种 , 它 的 通用 性 是 在 所 有 的 i.i.d. 分 布 上 
考虑 的 。 另 外 , 还 有 其 他 方案 如 Lempel-Ziv 算 法 , 它 针对 所 有 遍历 信 源 上 的 变速 率 通用 码 。 在 实 
际 中 ，Lempel-Ziv 算法 经 常 应 用 于 不 能 简单 建 模 的 数据 压缩 ,如 英文 文本 或 计算 机 信 源 码 , 我 们 
将 在 13.4 节 再 讨论 。 

有 人 可 能 想 知道 为 什么 对 于 一 个 特定 的 概率 分 布 , 往往 有 必要 使 用 赫 夫 曼 码 。 若 使 用 通用 
码 会 有 什么 损失 ? 一 般 地 , 通用 码 需 要 很 长 的 分 组 长 度 下 才能 获得 与 针对 特定 的 概率 分 布 所 设 
计 的 码 具 有 相同 的 功效 。 而 增加 分 组 长 度 的 代价 是 增加 编码 器 和 译 码 器 的 复杂 度 。 因 此 , 若 事 
先 已 知道 信 源 的 分 布 , 分 布 特定 码 是 最 佳 的 。 


11.4 大 偏差 理论 
大 偏差 理论 的 主题 可 用 一 个 例子 来 说 明 。 若 X,X,X, Æ iid. 服从 Bernoulli(1/3), 那 
alyx, 接近 1/3 的 概率 是 多 少 ? 这 是 一 个 小 的 偏差 (偏离 期 望 值 ), 所 以 , 该 概率 接近 于 为 1。 


Kej 


© 
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如 果 假定 Xo X2 X, Wiid. 且 服从 Berouli(1/3), EIX; KF 3/4 的 概率 是 多 少 呢 ? 这 是 
一 个 较 大 的 偏差 所以, 该 概率 按 指 数 喜 碱 。 我 们 虽然 可 以 利用 中 心 极限 定理 估计 出 这 个 指数 ， 
但 对 于 不 少 的 标准 的 偏差 来 讲 ， 这 样 的 逼近 效果 很 差 。 我 们 注意 到 士 习 Xi = 3M4 等 价 于 P= 


(1.3). FE, x, 靠近 3A 的 概率 等 价 于 型 Px 接近 于 (了 ,十 ) 的 概率 , 产生 如 此 大 的 偏差 的 


Ragre.) 144) ) 。 在 本 节 中 , 我 们 来 估计 由 非典 型 序列 的 型 构成 的 集合 的 概率 。 
BE 为 全 体 概率 密度 函数 之 集 的 一 个 子 集 。 例 如 ，E 可 以 是 均值 为 wx 的 所 有 概率 密度 构成 
的 集合 。 用 一 个 稍微 有 点 混淆 的 记号 , 我 们 记 


QUE) =QUENP,) = > Q(x) (11-89) 


<P.EENP, 

WMR E BEQ 的 一 个 相对 炳 邻 域 , 则 根据 弱 大 数 定律 (定理 11.2.1) 可 知 ，Q" (下 ) 一 1。 另 一 
方面 , 若 正 不 包含 Q RQ 的 邻 域 , 则 由 弱 大 数 定律 可 知 ，Q" (下 )~0 以 指数 衰减 。 我 们 将 利用 型 
方法 计算 这 个 指数 。 

首先 给 出 所 要 考虑 的 一 类 集合 E 的 几 个 例子 。 例 如 , 假定 通过 观察 , 发 现 g(X) 的 样本 均值 


大 于 或 等 于 a[ 即 , t DeX) > a ]。 该 事件 等 价 于 事件 PEENP,, 其 中 


E= ÍP: 2 gla) PCa) > a| (11-90) 
这 是 因为 
4 gl) >a S) Pagla) >a (11-91) 
OPxEENMNP, (11-92) 
于 是 ， 
Pr (1 Dex) >a)= QA(ENP,) = QE) (11-93) 
这 里 的 是 概率 向 量 空 间 中 的 半 个 空间 , 如 图 11-4 
所 示 。 


定理 11.4.1(Sanov 定理 ) H Xi, 义 2,…,X, 为 
iid. ~ Q(z), 记 亿 为 全 体 概 率 分 布 , Æ ESP, 则 
Q"(E) = Q ENP, )<(n + 1)/¥ig~ DP’ la) 
(11-94) 
其 中 
P =arg minD(P || Q) (11-95) 
ZAMMMERE E 中 最 接近 于 Q 的 分 布 。 
另外 ,车 集合 下 是 自身 内 部 的 闭 包 ，, 则 图 11-4 概率 单纯 形 与 Sanoy 定理 
TlogQ"(E)~>-D(P* Q) (11-96) 
证 明 : 首先 证 明 鞋 界 : 
Q"( 巨 ) = 2 Q"(T(P)) (11-97) 
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< > Q-nD(P Il Q) (11-98) 
< > „gag 2a! Q) ` (11-99) 
= ab 277 minpesnP PPI Q) (11-100) 
< > 2-7 minpesD(P1Q) (11-101) 

ms 2-zD(P |Q) (11-102) 
nt DX 1 Q) (11-103) 


其 中 最 后 一 个 不 等 式 可 由 定理 11.1.1 得 到 。 注 意 ，P 不必 是 刀 , 中 的 元 素 。 现 考虑 下 界 , AK, 
需 有 一 个 “良好 ”的 集合 E, 对 于 足够 大 的 n, TUE ENP, 中 找到 一 个 接近 于 P* 的 分 布 。 如 果 
假定 下 是 其 自身 内 部 的 闭 包 (因此 , 内 部 为 非 空 集 ), MAFU, P, 在 所 有 分 布 构成 的 集合 中 是 
稠密 的 , 可 得 存在 某 个 no, 对 所 有 的 nn, ENP, 是 非 空 的 。 因 此 , 可 以 找 出 一 列 分 布 P,， 
ff P,EC ENP, AD(P, || Q)>D(P* 外 Q)。 对 一 切 n=no, 


Qr(E) = >) Q@QT(P)) (11-104) 
PeENP, 
=Q"(T(P,)) (11-105) 


Soap nD(P, | Q) (11-106) 
从 而 ， 
lim inf TlogQ"(E)>lim inf( 一 ge ~ D(P, || Q) ) =-D(P*||Q) (41-107) 
与 已 证 明 的 上 界 结合 ,可 得 知 定理 成 立 。 口 
利用 量化 的 方法 , 可 将 上 述 讨 论 推 广 到 连续 型 分 布 情形 。 


11.5 Sanov 定理 的 几 个 例子 


假定 计算 Pr |1 D gX) > aj = 1,2,…,&| ， 则 集合 定义 为 
E = [P: DP(a)g(a) > a,j = 112 外 (11-108) 


YEE 中 找到 最 接近 于 Q 的 分 布 , 在 约束 条 件 式 (11-108) 之 下 , RDP || Q) 的 最 小 值 。 利 用 拉 
格 朗 日 乘 子 法 , 构造 泛 函 


J(P) = 亏 P(z)log Ele) + 2 P(x)g(z) + v2P(z) (11-109) 


然后 对 其 求 微分 ， 可 以 计算 出 最 接近 于 Q 的 分 布 具有 形式 


Q(x err) 
X Q(a)erraia 
aE X 


其 中 常数 4 根据 满足 约束 条 件 选 定 。 注 意 , # Q 是 均匀 的 , 则 PERKASA. 用 第 12 章 中 
所 述 的 同样 方法 , 可 以 验证 P* 的 确 是 使 D(P || Q) 达 到 最 小 值 时 的 分 布 。 

下 面 考 虑 几 个 特殊 的 例子 。 

例 11.5.1( 圾 子 ) BERGIT n 次, 山子 出 现 点 数 的 平均 值 大 于 或 等 于 4 的 概率 为 多 
少 ? 由 Sanov 定理 , 可知 





P*(x) = (11-110) 


362 





> 
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Q (E)=27 DP" | Q) (11-111) 
其 中 P* 是 在 所 有 满足 
2 iP(i) >4 (11-112) 
Kati P E, 使 DCP QQ) 达 到 最 小 值 时 的 分 布 。 由 式 (11-110), 可 得 P* 具 有 形式 
P*(2) = 2 (11-113) 
> 2" 


其 中 A AREA DiP* (i) =4 he. RAB, 可 得 *=0.2519, P* = (0.1031, 0.1227, 
0.1461, 0.1740, 0.2072, 0.2468), 故 D(P* || Q)=0.0624 比特 。 因 此 , #10000 KET, 其 出 
现 点 数 的 平均 值 大 于 或 等 于 4 的 概率 2 24。 

例 11.5.2( 硬 币 ) 假定 有 一 枚 均匀 硬币 , W 1000 次 。 要 估计 观察 到 出 现 正 面 多 于 700 次 的 
概率 。 这 个 问题 类 似 于 例 11.5.1, 其 概率 为 

P(R, 20.7)=27 P 19) (11-114) 
其 中 P* 为 (0.7, 0.3) 分 布 , 而 Q 是 (0.5, 0.5) 分 布 。 此 时 , D(P* || Q)=1-H(P*)=1-H 
(0.7) =0.119。 因 此 , 在 1000 次 的 试验 中 , 出 现 700 次 以 上 的 正面 的 概率 约 等 于 2-13。 

例 11.5.3( 相 互 依赖 ) 设 Q(zx,y) 为 给 定 的 联合 分 布 , 令 Qo(x,y)= Q(z)Q(y) 为 由 的 
边际 分 布 形成 的 乘积 分 布 。 要 知道 服从 分 布 Qo 的 样本 “表现 ”出 服从 联合 分 布 Q 的 似 然 性 。 相 
应 地 , 设 (X;, Y) 为 ii.d. 一 Qo(x,y)= Q(x)Q(y)。 如 7.6 节 定 义 的 联合 典型 性 , 即 (x" ,zx") 关 
于 联合 分 布 Q(z ,y) 是 联合 典型 的 当 且 仅 当 样本 炉 接近 于 它们 的 真实 炳 : 


| -JiogQ(z) - H(X) | < (11-115) 
| -lgQ(y) - HY) | <e (11-116) 

H 
-Llog (a", y) H(X, Y)|<e (11-117) 





我 们 希望 计算 “发 现 一 对 (x" ,yy ) 似 乎 关于 Q 是 联合 典型 "的 概率 (在 乘积 分 布下 )[ 即 (z",y ) 满 
足 式 (11-115) 一 (11-117)]。 车 Pry EENP,(X, Y), Wa" WKF Q(xz,y) 是 联合 典型 的 ， 
其 中 

E = |P(2,y): |- DP(z,y)logQ(z) - H(X)|<e, 


|- Bhp(z,ylogQ(y) ~ H(Y)|<e, 


|- BPp(z,y)ogQ(z,y) - H(X,¥)|<el (11-118) 
利用 Sanov 定理 , 可 知 它 的 概率 为 
QE) 272E lQ) (11-119) 


其 中 P BIRR EAE PREF Qo 约束 条 件 的 分 布 。 此 时 ， 当 e0 时 , 可 以 证 明 ( 习 
题 11.10)P* 是 联合 分 布 Q， Qo 为 乘积 分 布 , 故 其 概率 为 27 aD(Q(z,») 1 Q(2)Q(y)) = 9 ~ ACK) , 这 与 
第 7 章 所 得 的 关于 联合 AEP 的 结论 一 致 。 

在 下 一 节 中 将 要 考虑 ， 当 序列 的 型 属于 特定 的 分 布 集 E 时 该 序列 的 经 验 分 布 。 我 们 将 证 明 
不 仅 集 合 E 的 概率 由 D(P* | Q) 本 质地 决定 ,而 且 条 件 型 本 质 上 就 是 P*, 其 中 D(P* HQ@) 是 
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五 中 元 素 与 Q 之 间 的 最 近 距 离 。 因 此 , 若 考 虑 序列 的 型 在 E P, 则 该 型 是 非常 可 能 接近 于 
P* Bh. 


11.6 条 件 极限 定理 


我 们 已 经 证 明了 服从 分 布 Q 的 序列 的 型 构成 的 集合 的 概率 本 质 上 由 该 集合 中 最 接近 于 Q 的 
元 素 的 概率 所 决定 ; 该 概率 值 在 一 阶 指数 意义 下 等 于 2- 中 ,其 中 
D* =minD(P | Q) (11-120) 
这 是 因为 型 的 集合 的 概率 等 于 每 个 型 的 概率 之 和 , 它 超过 最 大 项 与 项 数 的 乘积 。 由 于 项 数 关 于 
序列 长 度 是 多 项 式 级 的 , 故 在 一 阶 指数 意义 下 , 该 和 等 于 最 大 项 。 
现在 将 上 述 讨 论 加 强 , 使 得 它 不 仅 能 够 证 明 集 合 E 的 概率 基本 上 与 最 接近 型 P* 的 概率 一 
致 , 而 且 也 可 以 证 明 其 他 远离 P* 的 型 的 总 概率 可 以 忽略 不 计 。 这 表明 实际 观察 到 的 型 以 非常 高 
的 概率 接近 于 P* 。 我 们 称 此 为 条 件 极 限定 理 。 
在 证 明 这 个 结论 之 前 ， 先 来 证 明 “ 毕 达 哥 拉 斯 ” 
(Pythageorean) 定 理 , 它 可 以 让 我 们 了 解 DCP || Q) 的 几 
何 性 质 。 由 于 D(P | Q) 不 是 真正 的 度量 , 许多 有 关 距 
离 的 直观 性 质 对 DCP || Q) 来 讲 都 将 失效 。 而 下 面 的 定 4 
理 表明 D(P || Q) 在 某 种 意义 下 类 似 于 欧 几 里 得 度量 平 
方 的 性 质 (图 11-5). 
定理 11.6.1 TALR ECPAT QEE, 
设 P*EE 是 与 Q 的 距离 达到 最 小 值 时 的 分 布 ， 即 ， 
D(P* | Q)=minD(P|1Q) (11-121) 
则 对 任意 的 PEE, 有 


图 11-5 关于 相对 粹 的 毕 达 哥 拉 斯 定理 


D(P || Q)D(P || P*)+ D(P* | Q) (11-122) 
注 : 该 定理 的 主要 用 途 如 下 : 假定 有 一 列 P,EE 使 D(P, || Q—-D(P* | Q), 则 由 毕 达 哥 拉 斯 
定理 知 , WA D(P, || P* ) 一 0。 
证 明 : 考虑 任意 PEE, 设 l 
P,=aP+(1-a)P* (11-123) 
则 当 -一 0 时 Pa >P XAF EEDE, 则 对 O<A<1, PEE., iii D(P* || QX DO || Q) 
沿路 径 P* 一 PP 上 的 最 小 值 , 从 而 DCP, || QAF aà 的 导数 在 1=0 点 处 非 负 。 令 
P(x) 














D, = D(P, || Q) = UP, (a )log Q(z) (11-124) 
则 
Shi = 3 ((Pla)-P* (2) lo BE + (P(x) P*(2))) (11-125) 
4 2=0, 此 时 P,=P*, 同时 利用 P(x)= UP *(2)=1, 可 得 
0<(S) ， (11-126) 
= 3(P(2)- P* (2) log BY (11-127) 
= SP(x)log EA) SP Cee GC (11-128) 
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_ P(x) P*(x) _ x P* (z) 
=D(P || Q)-D(P || P*)-D(P* | Q) (11-130) 
至 此 定理 得 证 。 CJ A 





ATER BATH DCP || Q) 具 有 如 欧 几 里 得 距离 
的 平方 的 性 质 。 假 定 在 及 * 中 有 一 凸 集 玉 。 设 A 为 集 
合 外 一 点 ，B 是 集合 中 最 接近 于 A WA, 而 C 为 集合 
中 的 任意 点 。 线 段 BA 和 BC 之 间 的 夹 角 必 为 钝 角 ， 
cela t+, SHH 11.6.1 具有 相同 的 形式 。 
见 图 11-6 所 示 。 

FmHA — 7 BS SB, CRA A 

















FAL, PRA. 
定义 ”两 个 分 布 的 C1 距离 定义 为 图 11-6 关于 距离 平方 的 三 角形 不 等 式 
| Pi- Poll, = =} 1 Pi(a) ~ Pp(a) | (11-131) 
S 4 为 满足 Pi(z)>P;(z) 的 所 有 Et 构成 的 集合 ， 则 
||P) -~ Poll, = > | Pi(z) - Pz(z) | (11-132) 
= = Se) - Pr(x)) + 2) (Px(x) - Pi(z)) (11-133) 
=P, (A)- P,(A) + P(A) ~— P(A) (11-134) 
= P,(A)- P,(A) +1- P(A) —-1+ P(A) (11-135) 
=2(P,(A) ~ P,(A)) (11-136) 
又 注意 到 
~ _ | Pi- Palla 
max( P,(B) — P2(B)) = P(A) -P(A)= 2 (11-137) 
式 (11-137) 的 左边 称 为 Pl 和 P 之 间 的 变 差 距离 (variational distance) o 
引 理 11.6.1 
D(P || P) >35 | Pi- Pall? (11-138) 
证 明 : 首先 证 明 二 元 情形 。 考 虑 两 个 二 元 分 布 , 其 参数 分 别 为 p Mq, 且 ple. FAEH 
plog 2 + (1- p)log {PS zi (v - a)? (11-139) 
上 式 两 边 的 差 值 g(p,g) 为 
glp) = pog È+- p)log p=? ata a) (11-140) 
则 由 g(1 一 a<t , gp, 可知 
dg(p,g)_ pb ,_1-p _ 4 - 
一) (11-141) 
-p 4 ; 
= 1 4) in 69 b) (11-142) 


<0 (11-143) 
4 q=p, Welp,q)=0, 因此 , 对 <p, 有 g(p,9q) 之 0, 从 而 对 二 元 情形 引 理 获 证 。 
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对 一 般 情形 , 若 有 两 个 任意 分 布 Pi 和 P,, i 
= {zx:Pi(z)>P,(z)| (11-144) 
定义 一 个 新 的 二 元 随机 变量 Y= $(X) 为 A 的 示 性 函数 , EP, AP, 构成 Y 的 分 布 。 于 是 P; 和 
Py 对 应 于 Py 和 P, 的 量化 形式 。 此 时 , KRELER SR FO (fg Hh E 
不 等 式 的 相同 证 明 方 法 得 到 ), 并 且 使 用 式 (11-137), 我 们 可 得 


DCP || P2)=D(P, || P2) (11-145) 

Faa PA) Pala)? (11-146) 

-z5 | Py- P21? (11-147) 

从 而 引 理 获 证 。 口 


现在 可 以 对 条 件 极限 定理 进行 证 明了 。 首 先 简单 介绍 一 下 所 用 的 证 明 方 法 。 如 本 章 开头 所 
BUR, TED QF, 一 个 型 的 概率 指数 依赖 于 该 型 到 Q 的 距离 ,因而 , 一 个 远离 Q 的 型 出 现 的 
概率 以 指数 衰减 。 这 是 核心 思想 。 将 E 中 的 型 划分 成 两 个 类 : 第 一 类 是 到 Q 的 距离 与 P* 到 QQ 
的 距离 差不多 (不 超过 D +26) 的 集合 , 第 二 类 是 到 Q 的 距离 超出 D* +26( 如 图 12-6 所 示 )。 
第 二 类 的 概率 与 第 一 类 的 概率 相 比 , 是 按 指数 衰减 的 。 因 此 , 第 一 类 的 条 件 概 率 趋 于 1。 利 用 毕 
达 哥 拉 斯 定理 可 以 证 明 第 一 类 中 的 所 有 元 素 均 近 似 为 P, 从 而 定理 可 以 得 到 证 明 。 

下 面 的 定理 是 最 大 粹 原理 的 一 个 重要 的 加 强 形式 。 

定理 11.6.2( 条 件 极 限定 理 ) 设 下 为 全 的 一 个 闭 凸 子 集 , 而 Q 是 不 在 五 中 的 分 布 。 设 XI1， 
Xas, Xn 是 i.i.d. 一 Q 的 离散 型 随机 变量 序列 ,已 * 为 达 最 小 值 minpe gD(P | Q) 时 的 分 布 。 则 
当 nook, 依 概率 有 

Pr( X,=a|Py€ E)>P* (a) (11-148) 
即 在 假定 序列 的 型 为 下 中 元 素 , 对 于 足够 大 的 n,， Xi 的 条 件 分 布 近 似 为 P*。 
例 11.6.1 # X; Æiid. ~Q, W 


Pr 








X,=a 4 AS x2S0|—P* (a) (11-149) 


其 中 P* (a) 是 满足 >P(a)a’ 之 a 条 件 的 所 有 P 中 使 D(P || Q) 达 到 最 小 值 时 的 分 布 。 此 最 小 化 
的 结果 为 





ee 
Z Rae ja 


其 中 4 根据 条 件 对 P” (a)a?=a 确定 。 于 是 ， 在 给 定 关 于 平方 和 的 约束 条 件 下 ， X, 的 条 件 分 布 
Feito BT) ASABE EE AK I BFE FP, 它 是 高 斯 型 的 ) 的 (标准 化 ) 乘 积 。 
定理 的 证 明 : 定义 集合 





P* (a) = Q(a) (11-150) 


S,={PEP:D(P || Q)<t} (11-151) 
由 DIP || QQ) 是 关于 PP 的 是 函数 , 可 知 集合 S, BR. > 
D*=D(P* | Q)=minD(P | Q) (11-152) 
由 于 D(P || QXT PB eo, 则 P* 惟 一 。 现 定义 集合 
A= Sp‘ 423M E (11-153) 


以 及 


370 
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B=E- Spa NE (11-154) 
于 是 , A UB=E。 这 些 集合 的 关系 如 图 11-7 所 示 。 由 于 仅 
存在 多 项 式 级 数 上 且 的 型 ,可 得 


Q’(B) = » Q’(T(P)) (41-155) 


PEENP, :D(P | Q)>D" +28 


2-z(P1 Q) (11-156) 


PEENP ,:D(P Il Q)>D* +28 


IN 





< g-m(D'+28) (44-157) 
PEENP ,,:D(P I Q)>D" +28 
<(nt+1)!¥!g- "(Dp +2) (11-158) 
图 11-7 ”条件 极限 定理 
另 一 方面 ， 
Q (AJQ (Sp + NE) (11-159) 
= 2 Q"(T(P)) (11-160) 
PEENP, :D(PHQ)>D' +8 
1 - 
> 一 一 -一 一 -2 nD(P || Q) (11-161) 
~ PEENP ,:D(P | Q)<D" +8 (n+ 1)'% 
1 -n(D'+ > 
>q pA "O°? Bn RARR (11-162) 


不 等 式 成 立 是 由 于 所 有 项 的 和 大 于 或 等 于 其 中 的 一 项 , 当 n 充分 大 时 , 至少 存在 一 个 型 在 Sp* ; 
NENP, 中, 于 是 当 AKA, 





Pr( Py € B| Py © £) = ZENE (11-163) 
<L (11-164) 
\X15-n(D" +28) 
qin) 2 一 一 (11-165) 
Gina ò) 
= (n +1%}!¥127 (11-166) 


当 nco 时 , 它 趋 于 0。 因 此 , 当 *~>co 时 ,，B 的 条 件 概率 趋 于 0, 此 蕴涵 A 的 条 件 概率 趋 于 1。 
现 来 证 明 在 相对 焙 意义 下 ，A 中 的 所 有 元 素 均 近 似 为 P* 。 对 A 中 的 所 有 元 素 ， 


D(P || Q)SD* +26 (11-167) 
因此 , 由 “ 毕 达 哥 拉 斯 "定理 (定理 11.6.1), 可 得 
D(P || P*)+ D(P* || Q)<D(P || Q)<D* +26 (11-168) 
由 D(P* ||Q)=D", FAHM 
D(P || P*)<26 (11-169) 


于 是 , 车 PEA, 则 D(P, || QSKD* +26, 从 而 , DCP, || P*)<20. Mii, 由 Pri Pe € Al Px 
EE|>1, 4 not}, 可 得 
Pr( D( Py || P*)<26| Py € E)1 (11-170) 
由 引 理 11.6.1 可 知 , SARE), 则 可 推出 Li 距离 较 小 , 从 而 maxzex| Px (a) - P*(a)|\ th 
较 小 。 于 是 , 当 n> ooft, Pr(|Px(a) -PP*(a)| 之 el| Px EE)>0。 等 价 地 ， 这 可 写成 
Pr(X,=alPy€E)>P*(a) 依 概率 ,a EX (11-171) 
在 这 个 定理 中 , 我 们 仅 证 明了 当 n 一 时 边际 分 布 趋 于 P*。 利 用 类 似 的 讨论 , 可 以 证 明 该 
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定理 的 一 个 更 强 的 形式 : 


Pr(X, = a,,X2 = Q2 Xm = Am | Py E E) 一 LT] P* (a) 依 概率 (11-172) 
i=1 


这 对 固定 的 m, 当 n 一 2 时 是 成 立 的 。 但 当 m =n 时 , 结论 并 不 一 定 成 立 , 因为 存在 终端 效应 ， 
序列 的 尾部 的 各 项 可 由 其 余 的 项 来 确定 。 假 定 序列 的 型 在 E 中 , 这 说 明 各 元 素 之 间 不 再 独立 。 
条 件 极 限定 理 表 明 起 初 的 一 些 元 是 依 公共 分 布 天" 渐 近 独立 的 。 

例 11.6.2 作为 条 件 极限 定理 的 一 个 例子 , SRR n KHOR. BEAR RM 
超过 4n, 那么 由 条 件 极限 定理 可 知 , 第 一 次 仍 子 出 现 点 数 a€ 11,2,…,61 的 概率 近似 等 于 
P*(a), 其 中 P*(c) 是 王 中 最 接近 于 均匀 分 布 的 一 个 分 布 , RB E={[P:DP(a)aS4}. tee 
HERA TA 

2% 
P*(x)= < (11-173) 
D2% 
其 中 可 根据 条 件 江 iP* (i)=4 确定 ( 见 第 12 章 )。 此 时 , P* 即 为 第 一 个 (或 其 他 任 一 个 ) 骨 子 的 
条 件 分 布 。 显 然 , 所 观察 到 的 起 初 一 些 蜗 子 的 行为 似乎 相互 独立 且 服 从 一 个 指数 分 布 。 


11.7 假设 检验 


在 统计 学 中 , 一 个 标准 的 问题 是 根据 观察 数据 , 确定 两 种 可 选 解释 中 该 选取 鄂 一 种 。 如 在 医 
药 测 试 中 ， 人 们 要 测试 一 种 新 药物 是 否 有 效 。 类 似 地 , 掷 硬币 过 程 所 产生 的 一 个 序列 可 揭示 该 硬 
币 是 有 偏 的 还 是 均匀 的 。 

这 些 是 一 般 假设 检验 问题 中 的 例子 。 在 最 简单 情形 , 我 们 考虑 如 何 确定 两 个 i.i.d. 分 布 中 的 
一 个 。 一 般 的 问题 可 表述 如 下 : 

问题 11.7.1 设 XXX 为 ii.d. 一 Q(z)。 考 虑 两 个 假设 : 

» Hi:Q= Pi1。 

。 H,:Q= P 

考虑 一 般 的 判决 函数 g (x1,z2，… ,Ta), 其 中 glr zts) = 1 表示 假设 Hi 被 接受 , 而 
g(xe,T2，… d) =2 表示 假设 H, 被 接受 。 由 于 函数 仅 取 两 个 值 , 则 通过 鉴定 满足 g (x1, x2，…， 
zx;)=1 的 序列 构成 的 集合 A, 也 可 将 检验 结果 确定 下 来 ; 该 集合 的 补 集 即 是 由 满足 g(r, 
Zoo's Iy) =2 的 全 体 序列 构成 。 定 义 两 类 误差 概率 : 

a= Pr(g(X,,X2,°°, X,) =2| HÄ) = PU(A) (11-174) 





和 
68=Pr(g(X XXX)=]| 万 真 )=P3(A) (11-175) 

通常 , 希望 同时 最 小 化 这 两 类 概率 , 但 往往 它们 之 间 存 在 着 均衡 关系 。 因 此 , 一 般 对 这 两 类 
误差 概率 中 的 一 个 给 予 约束 条 件 而 对 另 一 个 进行 最 小 化 。 对 此 问题 Chernoff-Stein 引 理 可 给 出 
关于 误差 概率 的 最 佳 可 达 误 差 指数 。 

首先 证 明 奈 曼 -皮尔 逊 (Neyman-Pearson) 引 理 ,， 它 是 两 个 假设 之 间 的 最 佳 检 验 形式 。 下 面 我 
们 仅 对 离散 分 布 情形 给 出 结果 ; 而 对 连续 分 布 情形 , 同样 可 以 得 到 相同 的 结论 。 

定理 11.7.1( 条 要 -皮尔 逊 引 理 ) HX, Xoe X, 为 ii.d. 服从 概率 密度 Q。 考 虑 相应 的 
假设 Q=P, 与 Q= P 的 判定 问题 。 对 于 TSO, 定义 一 个 区 域 
.Pi(x1, £233 Xn) 
“Py( £1, 223s £n) 





A,(T) = } 2" >T (11-176) 
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a* = Pi(A(T)), B* =P3(A,(T)) (11-177) 
为 判决 区 域 是 A, 的 相应 误差 概率 。 设 B, 为 另 一 判定 区 域 ， 相 应 的 误差 概率 为 afobo Ža 
a”, DW p>p*. 
证 明 : 设 4A=A,(T) 为 由 式 (11-176) 所 定义 的 区 域 ，BGY"* 为 其 他 接受 域 。 令 如 Moz Dd 
别 为 决策 域 A AB 的 示 性 函数 。 则 对 任意 的 x= (21,225°7, 2, EA, 





($4(x) - bp(x)) (P(x) — TP2(x)) 20 (11-178) 
这 可 通过 分 别 考虑 xEA Axé A 两 种 情形 得 到 。 将 上 式 乘 积 展开 并 在 全 空间 上 求 和 , 可 得 
0<H$Pi— THP- P14, + TP,$s) (11-179) 
= 2 (P; - TP,) - >) (P, - TP)) (11-180) 
=(1-a*)-T8*-(1-a)+ TB (11-181) 
= T(B- B*)-(a* -a) (11-182) 
由 于 T20, 至 此 完成 该 定理 的 证 明 。 口 


奈 紧 -皮尔 逊 引 理 表明 两 假设 的 最 佳 检验 具有 形式 
Pi(Xi,X,,… Xn) 
P(X, X25, Xn) 


此 为 位 然 比 检验 , See a ENE Ee AR eo P, ERTAN A 2 


验 中 [ 即 对 户 =A (1,07) fp=N(-1,07)], 似 然 比 为 





>T (11-183) 





fi(X1, X23 Xn) i=l no? 








AXXa Xe) eK (11-184) 
t Janet 20° 

= ee (11-185) 

ms (1186) 


=e 
这 时 的 似 然 比 检验 仅 需 将 样本 均值 X, 与 病 值 作 个 比较 。 若 使 两 类 误差 概率 相等 , 则 必须 令 T=1. 
见 图 11-8 所 示 。 
定理 11.7.1 表明 最 佳 检验 是 似 然 比 检验 。 可 将 对 数 似 然 比 改写 成 
忆 ICX1X2，…，Xn) 























L(X1 X20 Xn) = log BK Ke) (11-187) 
= >be em (11-188) 
= 24 "Px (a)log ex (11-189) 
-Y eeoa Be Be a 
= 24 "Px (a)log me ~ Dy "Pr (a)log Bes (11-191) 
= nD(Px || P2) ~ nD(Px || Pi) (11-192) 


即 对 数 似 然 比 是 样本 的 型 分 别 到 两 个 分 布 KRR ABE BS BAZ AG, 似 然 比 检验 
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Pi (Xi, X,,…, Xp) 
PX, X, ~, X) T (11-193) 





等 价 于 
D( Py | Pi) - D(Py | P) >+ogT (11-194) 
我 们 考虑 与 上 述 检验 等 价 的 问题 : 确定 与 假设 日 | 相对 应 的 型 的 单纯 形 区域 。 最 优 区 域 具 有 式 


(11-194) 的 形式 , 该 区 域 的 边界 是 由 距离 之 差 为 常数 的 型 构成 的 集合 。 这 个 边界 类 似 于 欧 几 里 得 
几何 中 的 垂直 平分 线 , 其 检验 的 说 明 如 图 11-9 所 示 。 


D(PIP,)=D(PIIP,)= 7 log T 





图 11-8 ”两 个 高 斯 分 布 之 间 的 检验 图 11-9 在 概率 单纯 形 上 的 似 然 比 检验 


基于 Sanov 定理 , 现在 非 正 式 地 给 出 如 何 选取 阔 值 来 获得 不 同 的 误差 概率 。 记 B 表示 假设 1 
被 接受 的 集合 。 则 第 一 类 误差 概率 为 
a, = Pi(Px E B°) (11-195) 
由 于 集合 B 是 凸 的, 则 利用 Sanov 定理 可 证 明 误 差 概率 基本 上 可 由 B 中 的 最 接近 Pi 的 元 素 的 
FANT RGAE FOR. BRL, 


a, ==27 DP, IP) (11-196) 
其 中 Pr? 为 B 中 最 接近 于 分 布 Pi 的 元 素 。 类 似 地 ， 
B,=2- DP IP) (11-197) 


其 中 PY 为 B 中 最 接近 于 分 布 P: 的 元 素 。 

在 约束 条 件 DOP || P.)- D(P || Py yot z ost 下 最 小 化 D(P || P2), 可 得 到 B 中 最 接近 于 
P 的 一 个 型 。 利 用 拉 格 朗 日 乘 子 法 , ESRR DP | P:) -DPI Pi)= TlogT 下 最 小 化 
D(P || P,), 可 得 | 














J(P)= Plz) FE E) + ASP(xlog pi tz l4 EPC) (11-198) 
KF P(z) 求 偏 导 , 并 令 其 值 为 0, 得 
log xe EX +1+ Alog pt ,=0 (11-199) 


解 此 方程 组 , 可 得 最 小 化 参数 P 具有 形式 
P? PA(x) PY (zx) 


= Pe = (11-200) 
à 2, Pila)P} -à (a) 











379 
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其 中 A 由 满足 条 件 D(P || P) - D(P* || P) = ewe 


因 式 (11-200) 的 对 称 性 , 显然 Pi = P27 , 且 误 差 概率 按 指数 衰减 ,其 中 的 指数 可 由 相对 炳 
D(P* 上 Pi) 和 D(P* | P,) 表 征 。 从 方程 式 中 可 注意 到 , 当 4 一 1 时, Pro Py, 而 当 4 一 0 时， 已 
一 P2。 当 、 变 化 而 已 描绘 出 的 曲线 是 单纯 形 中 的 一 条 测 地 线 。 这 里 P 是 个 标准 化 的 凸 组 合 ， 
其 中 所 说 的 组 合 是 指 在 指数 上 考虑 的 (图 11-9)。 

在 下 一 节 中 , 我 们 计算 当 两 类 误差 概率 中 的 一 个 任意 缓慢 地 趋 于 0 时 的 最 佳 误差 指数 
(Chernoff-Stein 引 理 )。 我 们 会 对 两 类 误差 概率 的 加 权 和 进行 最 小 化 ， 从 而 得 到 Chernoff 信息 界 。 


11.8 Chernoff-Stein 引 理 


现在 考虑 将 其 中 的 一 类 误差 概率 固定 而 对 另 一 误差 概率 进行 最 小 化 的 假设 检验 。 我 们 将 证 
明 该 概率 按 指数 变 小 , 而 且 该 指数 正好 是 这 两 个 分 布 之 间 的 相对 焙 。 该 证 明 过 程 中 使 用 了 AEP 
HAART HAIR IE SX 
定理 11.8.1( 相 对 炳 的 渐 近 均 分 性 ) A Xi,X;，…,X, 为 服从 Pi(z) 的 独立 同 分 布 随机 变量 
序列 ， 又 令 Pz(z) 为 十 上 的 任意 分 布 ， 那么 
Pi(Xi, X23 Xa) 








Tlog BO RR DP Il Pa) (11-201) 
依 概 率 收敛 。 
证 明 : 这 直接 由 弱 大 数 定律 推出 。 
380 1 1 Pi( Xi1, X;, Xn) _ 4) Hx) (11-202) 
n 08 P,(X1,X, Xn) ~ n Æ z 

MPx») 

_1< P,(X;) 
== >e BCX.) (11-203) 
+ Ep log ed 依 概率 (11-204) 
= D(P, || P2) (11-205) 


与 通常 的 渐 近 均 分 性 一 样 , Te A, PR TRAE. 
定义 ”对 于 固定 的 ”以 及 se >0, 序列 (zi, 2,0, £a) CX" KH AM R ah (relative 
entropy typical) ， 当 且 仅 当 


P ’ os Zn 
D(P; || P,) - e< log MEITE 2 Tn) 


< - 
Pal t1, £25, Zn) D(P, || Pa) +e (11-206) 


FRR EL A FE RRA RR, 记 为 As (Pi || P2)。 
HE Fa RE HG SBE IE BH , AY A aE Bt SS APE 





定理 11.8.2 
1. AER (21,2257, EAM (Py | P2), 
Pi (ap £23, Tp )2 "DD, | P,)+e) 
SP (21 5X25°" En) i 
<P (x4 527500 £p 2PM | P,)-e) (11-207) 


2. 对 于 充分 大 的 n, P(A (P || P2)) >1-€. 
3. P(A (P; | Py))<27 2 I P,)~e) | 
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4. 对 于 充分 大 的 x, PAPP || Pa))>(1-e)2 "DP P+ 

证 明 : 该 定理 的 证 明 可 以 直接 由 定理 3.1.2 相同 的 手法 得 到 , 在 这 里 只 需 将 计数 度量 换 成 概 
率 测度 Pro YEE 1 KERA A RIMAR RNR EE. BRERA HAX AE 
均 分 性 (定理 11.8.1) 得 到 。 为 了 证 明 第 三 条 性 质 , 我 们 给 出 如 下 连锁 关系 式 


Pi (AL? (Py ll P2)) = 2 Po(zhza zn) (11-208) 
PEAY PNP,) 
< >» P lzi, 2, , Ta)2 "PP: NF,)-e) (11-209) 
LEA (P, I P,) 
= 2 (DPN) 5S Pix 950s tq) (11-210) 
ZEA (P, I P,) 
=2-"(DP 1P) -9p (Ap, || P3)) (11-211) 
<27 7DP IP) -e) (11-212) 


其 中 , 第 一 个 不 等 式 可 由 性 质 1 推出 。 第 二 个 不 等 式 基 于 任何 集合 关于 Pi 的 概率 不 会 超过 1 这 
个 事实 。 
为 了 证 明 相对 粹 典型 集 的 概率 的 下 界 , 讨论 如 下 的 关于 概率 下 界 的 一 个 平行 的 结果 : 


P,(AY& (Py || P2)) = >， Palatia, Za) (11-213) 

LEA (P, IP) 
之 Py(x45.2 95°11 Tn)2 MPP I Pte) (11-214) 

Peal (P || P,) 
= 2-n(DP IP) > Pilia, £n) (11-215) 

ZEAL (PIP,) 

= 27 (DP, {| P+) p (A (P; | P»)) (11-216) 
(1 ~ € )27 "DPD, I P,) +e) (11-217) 
其 中 , 第 二 个 不 等 式 直接 从 AM (P, || P,) 的 第 二 个 性 质 推出 。 口 


由 第 3 章 中 的 标准 渐 近 均 分 性 , 也 可 以 证 明 任 何 具有 高 概率 的 集合 与 该 典型 集 有 大 的 交集 。 
因此 , 拥有 约 2 到 个 元 素 。 我 们 接 下 来 证 明 相 对 焙 的 对 应 结果 。 

引 理 11.8.1 令 B,CY" 为 序列 x1,X2，… ,Xn 构成 的 集合 且 Pi(B。)>1-e。 再 令 Pi 满足 
D(P; || P,)< + 0 的 一 个 分 布 。 那 么 , Ps(B,)>(1-2e)2- "PPI PYt, 

WEAR: 为 了 简洁 起 见 , 将 AMP, || PBUH A o AF P1(B,)>1-s 以 及 P(A,)>1-&e 
(定理 11.8.2), 利用 事件 之 并 的 不 等 式 , 有 Pi( BU As)<2e, 等 价 地 , Pi(B, 门 A,)>1-2e。 
于 是 ， 


P,(B,) > P(A, N B,) (11-218) 
- 5 Piz") (11-219) 

TEA NB, 
> > Py( x? 2-2 OF ji P,)+e) (11-220) 

TEA NB, 
= 2-"(D(PlP)+e) S pi(z") (11-221) 

ZEA NB, 

=27 "DP, IP.) +9 P (A, NB,) (11-222) 
>27 (DUP, IP.) +2) (4 —2e) (11-223) 


其 中 , SAR BR a HA (RE 11.8.2), 而 最 后 一 个 不 等 式 由 上 述 关 
于 并 的 不 等 式 推出 。 口 
我 们 现在 来 考虑 两 个 假设 Pi 与 PL 的 假设 检验 问题 。 在 固定 误差 概率 的 情况 下 ,让 另 一 个 


N 
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REBRE Me. RIERA RERER SRE. 
定理 11.8.3(Chernoff-Stein 引 理 ) 设 X1, X20, X, Hi.i.d.~Q. # R AHAH Q = Pi 
fo Q= 了 P，, 的 假设 检验 问题 , 其 中 D(P || P) <. RA,CA* 为 假设 Hi 的 接受 域 , 误差 概率 为 


a, =Pi(AS) B, = P3(A,) (11-224) 
且 对 于 0<e<4, 定义 
B= min B, (11-225) 
A Ga" 
a <e 
则 
lm 过 log 所 = - DCP || P2) (11-226) 
证 明 : 


分 两 步 来 证 明 。 第 一 步 给 出 一 列 集合 A, 其 误差 概率 B, 按 指数 系数 D(P1i || P;) 下 降 到 0。 
第 二 步 证 明 根 本 没有 其 他 集合 列 的 误差 概率 能 够 比 该 列 集合 所 对 应 的 误差 序列 收敛 得 更 快 。 

在 第 一 步 中 , 选取 A, =A (P, || P,)。 正 如 定理 11.8.2 中 证 明 的 那样 , 该 列 集合 对 于 充分 
大 的 n, 满足 Pi(As)<e。 并 且 由 定理 11.8.2 中 的 性 质 3, 我 们 还 有 


lim-LlogP2(A,)<~ (D(P; || Ps) ~e) (11-227) 


从 而 , AXA A ARASH AR. 

为 了 证 明 没 有 更 好 的 其 他 序列 , 考虑 任意 列 集合 B,, 使 Pi(B,)>1- s。 此 时 ,由 引 理 
11.8.1, 得 到 P.(B,)>(1—2e)27 "PPP 从 而 

lim logP2(B,) > -(D(P | P2) +e) + lim log(1 2e)=-(D(P, || P,)+e) (11-228) 
这 表明 没有 任何 集合 序列 能 够 使 误差 概率 收敛 于 0 的 指数 速度 比 D(P || PER, FR, 集合 
序列 A, = AM (P, || P2) 在 概率 意义 下 按 指数 渐 近 最 优 。 口 

RSA EER, 即 可 以 达到 最 佳 渐 近 速 率 ,相对 于 给 定 的 假设 检验 问 
题 , 但 它 却 不 是 最 优 的 。 最 优 集 是 奈 曼 -皮尔 逊 引 理 给 出 的 使 误差 概率 最 小 化 的 集合 。 


11.9 Chernoff 信息 


我 们 已 考虑 过 经 典 处 理 方式 的 假设 检验 问题 , 对 其 中 的 两 类 误差 概率 是 分 别 进行 处 理 的 。 
在 推导 Chernoff-Stein 引 理 过 程 中 ,  a,<e, 从 而 得 到 8,=2- 刀 。 但 这 个 方法 缺乏 对 称 性 。 如 果 
考虑 的 两 个 假设 存在 先 验 概 率 , 则 可 得 到 一 个 贝 叶 斯 (Bayesian) 方 法 。 此 时 , 我 们 要 最 小 化 的 是 
总 误差 概率 , 它 是 单个 误差 概率 的 加 权 和 。 由 此 方法 得 到 的 误差 指数 即 Chernoff 信息 。 

具体 设置 如 下 ; X1, X00, X, A iid. ~ Q。 有 两 个 假设 : Q = Pi 的 先 验 概率 为 1 以 及 
Q = P, 的 先 验 概率 为 2。 则 总 误差 概率 为 





PO =n a, + mB, (11-229) 
令 
D* = lim - log maxP” (11-230) 
no n ASH 


定理 11.9.1 (Chernoff) NHAR ŽAR ORRETARA D, 其 中 
D* =D(P,: || P) = DCP," || P2) (11-231) 
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而 
P\(x)Py*(2) 
P. T - 
* E Pla) PI a) (11-232) 
at X 

BA ABR 

D(P," | P,)=D(Py: | P3) (11-233) 
的 人 值 。 


TERR: 基本 的 详细 证 明 过 程 在 11.8 节 中 给 出 。 我 们 已 证 明了 最 优 检验 为 似 然 比 检验 , 它 可 
以 认为 是 具有 形式 l 
DCPe || Pz) ~ D( Px | Pi) > 二 logT (11-234) 
此 时 检验 将 概率 单纯 形 划 分 成 了 分 别 对 应 于 假设 1 和 假设 2 的 两 个 区 域 , 如 图 11-10 所 示 。 
设 A 为 相应 于 假设 1 的 型 所 成 的 集合 。 根 据 前 面 讨论 过 的 式 (11-200), 在 集合 A 中 最 接近 
于 Pi 的 元 素 在 A 的 边界 上 , 它 具 有 式 (11-232) 的 形式 。 然 后 由 11.8 节 的 讨论 易 知 ，P;, 是 A 中 
BRET P, 的 分 布 ; 它 也 是 A 中 最 接近 于 P| 的 分 布 。 由 Sano 定理 , 可 计算 相应 的 误差 概率 为 


a, = PY(A’)=2 "PP NP) (11-235) 
及 . 
B, = P(A )=27 Pe HPD (11-236) 
对 于 贝 叶 斯 情形 ,总 误差 概率 为 两 类 误差 概率 的 加 权 和 ， 
P,==1,27 zaD(P Il Py) 十 m27 nD(P, || P,) 977 min|D(P, | P,), DCP, Il P,)! (11-237) 


因为 指数 变化 率 取决 于 最 坏 的 指数 。 由 于 DOP | Pi) BEA 递增 , DCP, || Po) Bi 4 是 递减 的 ， 当 
{D(P, || P1), DCP, || P2)} 中 的 两 者 相等 时 , 则 恰好 达到 它们 的 最 小 值 中 的 最 大 值 。 见 图 11-11 
所 示 。 因 此 , 可 选取 ,使 得 


D(P, || P;)=D(P, || P2) (11-238) 


FE, C(P ,P,) 即 是 误差 概率 的 最 高 可 达 指 数 , PKA Chernoff 信息 。 口 


2.5 


DPP) -7 





0 0.1 0.2 0.3 04 0.5 06 0.7 08 09 1 
À 


Æ 11-10 概率 单纯 形 和 Chernoff 信息 图 11-11 作为 4 的 函数 的 相对 灶 D(P | POM DCP, || P2) 


定义 D* = DCP,’ 上 Pi)= D(P* 上 PP,) 等 价 于 标准 的 Chernoff 信息 定义 ， 
C(P;,P2) A- min log( YPP) ) (11-239) 


关于 式 (11.231) 和 式 (11.239) 的 等 价 性 证 明 , 留 给 读者 作为 练习 。 





图 
00 
~ 
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下 面 简要 介绍 一 下 通常 的 对 Chernoff 信息 界 的 推导 过 程 。 利 用 最 大 后 验 概率 决策 准则 来 最 
小 化 贝 叶 斯 误差 概率 。 对 于 最 大 后 验 概率 准则 , 假设 Hi 对 应 的 决策 域 A 为 


(11-240) 


_ A= |x m P(x) >1| 
mP > 
该 结果 集合 表示 假设 H 的 后 验 概率 比 假设 H 的 后 验 概率 大 。 在 此 准则 下 , 误差 概率 为 
P, =m a, + mB, (11-241) 
= 2 mP, + >) mP (11-242) 
= Emina Pi mPa! (11-243) 


对 任意 两 个 正 数 a Mb, A 
minta, b Keb? 对 任意 的 OKAI (11-244) 
承接 前 面 的 等 式 , 我 们 得 


P, = Eminim Pi oP} (11-245) 
<E (m P1) (mPa) (11-246) 
<E PPY > (11-247) 
MPH iid. 观察 样本 , PO) = [T Pa) AT 

PY? <S I] Pita) PY (zi) (11-248) 
=m I] DP) PL) (11-249) 
< I pip (11-250) 
= (pip) (11-251) 

其 中 式 (11-250) 由 <1, mW <1 可 得 。 因 此 ， 我 们 进一步 有 
L ogP(<log P}(2) PHa) (11-252) 


HH ESO EEA OSA <1 均 成 立 , 所 以 , 在 O<A<1 上 到 最 小 值 ， 即 可 得 到 Cheroff 信息 界 。 
于 是 , 证 明了 误差 概率 指数 不 会 比 C( P,P,) 更 佳 。 该 指数 的 可 达 性 可 由 定理 11.9.1 得 到 。 

可 注意 到 , RE m Mr ES, 则 贝 叶 斯 误差 指数 是 不 依赖 于 ma 和 zw 的 实际 取 值 的 。 从 本 质 
上 说 , 对 于 大 样本 , 由 先 验 知识 所 产生 的 效应 会 消失 。 最 优 决 策 准则 是 选择 具有 最 大 后 验 概 率 的 
假设 , 对 应 于 检验 

mmPI( XXX ) 
mPa X1, X230 Xa) 
对 上 式 取 对 数 并 除 以 n, 该 检验 可 重新 写成 


ete 2 log Bx.) $0 (11-254) 


其 中 , BOM DCP, || PYR- DP || Pi) 取决 于 真实 分 布 为 Pi 或 Pz。 而 第 一 项 趋 于 0, 因 
而 , 由 先 验 分 布 所 产生 的 效应 消失 。 

最 后 , 为 完善 对 大 偏差 理论 和 假设 检验 的 讨论 , 考虑 关于 条 件 极限 定理 的 例子 。 

例 11.9.1 假定 棒球 联合 总 会 的 棒球 选手 的 击 球 平均 得 分 数 为 260, 其 标准 偏差 是 15, 而 假 
定 小 俱乐部 联合 会 的 棒球 选手 的 击 球 平均 得 分 数 为 240, 其 标准 偏差 是 15。 现 有 来 自 某 一 俱乐部 
(俱乐部 是 随机 选取 的 ) 的 100 名 选手 组 成 一 支 球 队 , 发 现 该 队 的 击 球 平均 得 分 数 超过 250, 因而 





$1 (11-253) 
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判定 是 棒球 联合 会 的 成 员 。 但 我 们 被 告知 这 个 判定 是 错误 的 , 即 这 些 选手 是 小 俱乐部 联合 会 的 
成 员 。 对 于 这 100 名 选手 , 我 们 可 否 知晓 击 球 平均 得 分 数 的 分 布 该 是 什么 呢 ? 从 条 件 极限 定理 可 
知 关于 这 些 选手 的 击 球 平均 得 分 数 的 分 布 的 均值 为 250 而 标准 偏差 是 15。 为 清楚 此 事 , 将 问题 
抽象 如 下 。 
考虑 关于 两 个 高 斯 分 布 户 = M(1,o2) 和 户 = M(- 1,o3) 间 的 检验 情况 ,它们 具有 不 同 的 均 
值 但 方差 相同 。 如 11.8 节 所 讨论 的 ,此 情形 下 似 然 比 检验 等 价 于 比较 样本 均值 与 阔 值 。 贝 叶 斯 
MIRA TST X > 0 , 则 接受 假设 /= 有"。 假 定 在 检验 中 我 们 犯 的 是 第 一 类 错误 ( 即 接受 = 
fo 但 实际 上 f= 及)。 在 已 知 犯错 误 的 情形 下 ,样本 的 条 件 分 布 怎样 ? 
我 们 可 能 会 猜测 各 种 各 样 的 可 能 性 ; 
。 样 本 看 起 来 如 两 个 正 态 分 布 的 { I,E ) 混 合 。 这 似乎 合理 , 但 是 不 正确 的 。 
， 对 所 有 的 i，Xi~0。 尽 管 从 条 件 上 看 好 像 X 近似 为 0, 但 这 显然 是 极其 不 可 能 的 。 
， 正 确 的 答案 可 由 条 件 极限 定理 给 出 。 若 真实 分 布 为 户 ， 而 样本 的 型 在 集合 A 中 , 则 条 件 
分 布 接近 于 六， 其 中 /* 为 A 中 最 接近 于 fo 的 分 布 。 由 对 称 性 ， 这 等 价 于 在 公 
式 (11-232) 中 令 和 = 方 。 计 算 相应 的 分 布 ,可 得 
( 1 fe 3 


= ) 2 ( 1 -人 zt] 

> 20 zE 2a 
V 2no V 270 a (11-255) 
2 




















7 (11-256) 








= eR (11-257) 


=N (0,07) (11-258) 

有 趣 的 是 , 注意 到 条 件 分 布 是 均值 为 0 且 方 差 与 初始 分 布 相同 的 正 态 分 布 。 这 让 人 感到 奇怪 , 但 
的 确 如 此 ; 若 我 们 将 一 正 态 总 体 误 认为 男 一 正 态 总 体 , 则 该 总 体 的 “形状 ”似乎 看 上 去 仍然 是 正 态 
的 , 方差 相同 但 均值 不 同 。 显 然 , 如 此 的 稀有 事件 不 可 能 由 古怪 的 观察 数据 产生 。 

例 11.9.2( 大 偏差 理论 与 敏 槛 球 ) 考虑 ` 
一 个 形式 非常 简单 的 橄榄 球 比赛 ,其 得 分 机 wl 
制 直 接 与 赢得 的 码 数 相关 。 假 定 教练 可 在 两 $ 
种 策略 中 选择 : 带 球 跑 或 传 球 。 每 种 策略 都 F 
有 赢得 码 数 的 分 布 。 例 如 , 一 般 情形 下 , 带 | — ` 
球 跑 往 往 以 极 大 的 概率 赢得 较 少 的 码 数 ， 而 传 球 方式 可 得 的 码 数 带 球 跑 方 式 可 得 的 码 数 
传 球 通常 会 以 小 概率 赢得 较 多 的 码 数 。 分 布 图 11.12 带 球 跑 或 传 球 方式 赢得 码 数 的 分 布 
实例 如 图 11-12 所 示 。 

在 比赛 开始 时 , 教练 运用 能 赢得 最 大 的 期 望 得 分 数 的 策略 。 假 设 在 比赛 将 结束 的 几 分 钟 里 ， 
一 支 球 队 以 大 比分 处 于 领先 地 位 。( 可 忽略 起 初 的 界外 球 和 适应 性 防卫 球 。) 因 此 , 落后 的 球 队 只 
能 靠 运气 才 有 可 能 赢得 比赛 。 若 存在 可 能 赢得 比赛 所 需 的 幸运 机 会 , 则 可 以 假定 该 球 队 将 是 幸 
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运 的 , 并 依 此 继续 进行 比赛 。 BRA, 什么 策略 合适 ? 
假设 该 球 队 仅 剩 下 n 次 比赛 , 但 必须 赢得 ! 个 码 数 , 其 中 ! 远 远大 于 每 次 比赛 期 望 得 分 数 的 
7 倍 。 该 球 队 成 功 地 赢得 : 个 码 数 的 概率 是 指数 级 的 小 ; 因此 ,可 利用 大 偏差 的 结论 及 Sanov 定 


理 来 计算 这 个 事件 的 概率 。 精 确 讲 ,我们 要 计算 > Z > na 的 概率 ,其 中 Z 为 相互 独立 的 随机 


变量 , E Z 的 分 布 与 所 选取 的 策略 相关 。 
具体 情形 如 图 11-13 aR. RE 是 满足 约束 条 件 的 所 有 
型 构成 的 集合 ， 
E= 1|P: 2 Plaja >a} (11-259) 


若 P 表示 始终 都 在 传 球 所 对 应 的 分 布 , 则 获胜 的 概率 为 样 
本 的 型 含 于 E 这 个 事件 的 概率 ,由 Sanov 定理 可 知 , 此 概率 
为 2-"D(Pi1P), 其 中 Pi A E PREF P 的 分 布 。 类 似 
地 , 若 教 练 始 终 使 用 带 球 跑 策略 ， 则 获胜 的 概率 为 
2° DP, VP), SRI, 如 果 他 将 两 种 策略 混合 使 用 , 结果 会 怎 
样 ? 对 于 混合 策略 P = XP1 + (1-A)P,, 获胜 的 概率 
27 DCP, 1RB) 可 能 会 比 使 用 单纯 的 传 球 或 单纯 的 带 球 跑 策略 而 获胜 的 概率 更 大 吗 ? 让 人 有 点 惊奇 
的 是 , 答案 是 肯定 的 , 可 用 例子 来 说 明 。 这 给 优先 使 用 混合 策略 而 非 胡 乱 的 防守 提供 了 依据 。 

本 节 以 Chernoff 给 出 的 另 一 个 不 等 式 结束 , 它 是 马尔 可 夫 不 等 式 的 一 个 特殊 形式 。 称 此 不 等 
式 为 Chernoff 界 估计 。 

引 理 11.9.1 设立 为 任意 随机 变量 ,更 (5) 为 YORE RK, 


图 11-13 ”橄榄 球赛 事 的 概率 单纯 形 


W(s)= Ee® (11-260) 
则 对 任意 的 50, 
Pr( Y2a)<e "W(s) (11-261) 
FR 
Pr( Y2a)<mine “P (s) (11-262) 
证 明 : 将 马尔 可 夫 不 等 式 应 用 于 非 负 随机 变量 情形 ， 即 可 得 引 理 成 立 。 口 


11.10 费 希 尔 信息 与 Cramér-Rao 不 等 式 
在 统计 估计 中 , 一 个 标准 的 问题 是 根据 抽 自 某 一 分 布 的 样本 数据 如 何 确定 该 分 布 的 参数 。 


例如 , 设 Xi,X,,…,X, SHAN (ODM iid. 样本 。 假 定 要 估计 样本 大 小 为 n 时 的 参数 0 是 
多 少 , 可 以 使 用 许多 关于 这 组 数据 的 函数 来 估计 9。 比 如 , 可 以 利用 第 一 个 样本 Xi。 尽 管 X 的 


期 望 值 是 9, 但 显然 使 用 更 多 的 数据 会 获得 更 好 的 估计 。 先 不 妨 猜测 6 的 最 佳 估计 是 样本 均值 
X,=2 UX. 事实 上 ,可 以 证 明 X, 是 一 个 最 小 均 方 误差 无 偏 估计 量 。 
我 们 首先 给 出 几 个 定义 。 令 17(z;6)1，6E @ 表示 一 个 带 下 标的 密度 函数 族 , 即 
f(z30)>0,|f(z;0)dr =1, VOE@ 


此 处 ，@ 称 为 参数 集 。 
定义 ”关于 6 在 样本 量 为 ”的 估计 是 映射 函数 了 :~@。 
估计 指 关于 参数 值 的 逼近 。 因 此 , 我 们 必须 想 办 法 评判 逼近 的 好 坏 程 度 。 我 们 称 差 值 工 - 0 
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为 估计 的 误差 , 这 里 的 误差 是 个 随机 变量 。 

定义 ”关于 参数 9 的 估计 本 (Xi ,XX;,… X ) 的 偏 定义 为 估计 的 误差 的 期 望 值 [ 即 偏 等 于 ET 
(Xi1, 义 ,,… ,XX,) 一 90]。 其 中 的 下 标 9 表示 取 期 望 是 相对 于 密度 函数 了 (: ;9) 而 言 的 。 若 对 于 所 有 
的 9E 8, 偏 为 0, 则 称 它 为 无 偏 估计 。 即 , 无 偏 估计 的 期 望 值 正好 等 于 参数 值 。 

例 11.10.1 设 X1, X20, X, 为 抽 自 f(zx)=(1/X)e 74 (250) WH iid. HA, 是 一 个 服从 
指数 分 布 的 随机 变量 序列 。4 的 估计 量 包括 Xi 或 XX,, 它们 均 是 无 偏 的 。 

由 定义 知 , 偏 是 误差 的 期 望 值 , 而 事实 上 , CST 0 并 不 能 保证 误差 以 极 大 的 概率 是 低 的 。 
因此 , 我 们 有 必要 考虑 误差 的 某 个 损失 函数 。 通 常 最 受 欢 迎 的 损失 函数 是 均 方 误差 。 一 个 好 的 
估计 量 必须 要 求 具 有 低 的 均 方 误差 , 并 且 当 样本 量 趋 于 无 穷 大 时 , 误差 应 该 接近 于 0。 这 促使 我 
们 给 出 如 下 的 定义 : 

定义 ” 称 关于 9 TX, XX,,…,X, ) 是 依 概率 一 致 的 , 如 果 当 2 一 co 时, 依 概率 有 
T(Xi1, X20, Xn) Oo f 

一 致 性 是 一 种 可 以 期 盼 的 渐 近 性 质 , 但 我 们 感 兴趣 的 是 小 样本 时 也 有 该 性 质 成 立 。 对 此 ,可 
以 利用 均 方 误差 为 尺度 来 衡量 各 种 估计 。 

定义 ” 称 估 计 Ti(X1, 久 2,…,X, ) 优 越 于 估计 TT,(X1,X,，,… Xna) 若 对 所 有 的 0, 有 

下 (Ti(X X250, X,) — 0)°<<E(T,( XI, Xs, Xn) — 0)? (11-263) 

由 此 自然 会 产生 一 个 问题 ; 是 否 存 在 9 的 最 佳 估计 能 够 控制 其 他 所 有 估计 ? 为 解决 这 个 问题 ， 
我 们 得 到 了 关于 任意 统计 量 的 均 方 误差 的 CramerRao 下 界 。 首 先 定义 分 布 A(x;9) 的 得 分 函数 , 利 
用 柯 西 - 施 瓦 芯 (Cauchy-Schwarz) 不 等 式 可 证 明 关 于 任意 无 偏 佑 计量 的 方差 的 Cramér-Rao 下 界 。 

定义 ”得 分 V 是 个 随机 变量 , 定义 为 


a 
a _ 35/(Xi0) 
V= PIX: 0) =~ ay (11-264) 
其 中 X 一 zig)。 
得 分 的 均值 是 
a 
zg (x39) 
EV = | py (zib)dz (11-265) 
= | f(x;0)dz (11-266) 
= Zl Frse)dz (11-267) 
9 
=z (11-268) 
=0 (11-269) 
因此 , E V = var(V)。 得 分 的 方差 具有 特殊 的 重要 意义 。 
定义 ” 费 希 尔 信息 (0) 是 得 分 的 方差 : 
2 
JO = Es| 放 Inf(X;0)| (11-270) 
车 考虑 抽 自 f(x;0) 的 个 随机 变量 i.i.d. 样本 Xi, X2,-°,X,, WA 
f (052255 2,59) = TL fz;0) (11-271) 


从 而 , 总 的 得 分 函数 为 单个 得 分 函数 之 和 ， 
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9 
V(X, X25 Xn) = ganf (Xi X230 Xa ;0) 


= D pglnf (X38) 


394 = > V(X;) 
其 中 V(X, ) 独 立 同 分 布 且 均值 为 0。 因 而 ，” 个 样本 的 费 希 尔 信息 为 


(11-272) 
(11-273) 


(11-274) 


(11-275) 
(11-276) 
(11-277) 


(11-278) 
(11-279) 


(11-280) 


a 2 
J (0) = Es (Inf(X1, Xa , X10) ) 
= EV? (Xi, Xs, Xn) 
= El( >) V(X;))" 
= > ErV2(X) 
= nJ(8) | 
由 此 可 知 , iid. 的 nn 个 样本 的 费 希 尔 信息 是 单个 样本 的 费 希 尔 信息 的 n 信 。 费 希 尔 信息 的 重要 
意义 可 由 如 下 定理 充分 体现 。 
定理 11.10.1(Cramér-Rao 不 等 式 ) 费 希 尔 信息 的 倒数 是 参数 9 的 任何 无 偏 佑 计量 (XX) 的 
均 方 误差 的 下 界 : 
var DT 


证 明 : 设 V 为 得 分 函数 , T 是 估计 量 。 由 柯 西 - 施 瓦 茨 不 等 式 , 可 得 
(Eg (V — EgV)( T — ET) SE: V - EgV)?Eg( T - ET} 


由 于 工 是 无 偏 估计 ,所 以 对 于 任意 9, WA E,T= 6。 由 式 (11-269) 知 EoV =0, 因而 ， 


EsV)(T- EoT) = EgeVT。 再 由 定义 得 到 ,var(V)=J(90)。 将 这 些 条件 代 人 式 (11-281)， 
[Es( VT) ?<J(@)var( T) 
而 ， 
395 apf (x30) ;0) 
EVT) = | gy T) f(x;0)dz 


f(x;0) 
= [ZaD Toa 
= Z| F210) T(a)de 
= 3967 

=29 

=1 


(11-281) 
E;( V- 
可 得 

(11-282) 


(11-283) 
(11-284) 
(11-285) 
(11-286) 


(11-287) 
(11-288) 


对 于 具有 良好 性 质 的 (2:0), 式 (11-285) 中 的 微分 和 积分 号 互 换 可 利用 控制 收敛 定理 得 到 ,而 


式 (11-287) 是 由 于 估计 量 工 是 无 偏 的。 ERARI 282) ， 即 得 
var( T) 22775, 
此 即 关 于 无 偏 估 计量 的 Cramér-Rao 不 等 式 。 


TO 


(11-289) 
口 
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通过 基本 上 相同 的 讨论 , 可 以 证 明 对 任意 估计 量 


E(T- gat , +63 (0) (11-290) 


其 中 br(0)=ET-0, 67(0) 是 br(0) 关 于 9 的 导数 。 此 结论 的 证 明 留 作 本 章 末 的 习题 。 
例 11.10.2 设 X1,X2…,X, 为 ii.d. 一 人 (9,o?), 如 已 知 。 此 时 ， JO) =o & T(X,, 


Xares X,) =X =X; 则 E(X,- 2 =Z =, hF X, 达到 Cramér-Reo FR, HX, 


n J(0) 

为 关于 9 的 最 小 方差 无 偏 估 计量 。 

‘Cramér-Rao 不 等 式 给 出 了 关于 所 有 无 偏 估计 的 关于 方差 的 下 界 。 当 该 下 界 达到 时 , 称 此 估 
计 是 有 效 估计 。 

定义 ” 称 无 偏 估计 量 本 是 有 效 的 (efficient), 若 它 达到 Cramér-Rao 下 界 [ 即 ， # val T)= 7il- 

因此 , 费 希 尔 信息 可 以 度量 在 当前 的 数据 中 含有 关于 9 的 "信息 ? 量 。 它 可 给 出 由 数据 估计 0 
产生 的 误差 的 下 界 。 然 而 , 可 能 不 存在 一 个 估计 量 恰好 达到 这 个 下 界 。 

我 们 可 以 将 费 希 尔 信息 的 概念 推广 到 多 参数 情形 , 此 时 , 需要 定义 费 希 尔 信息 矩阵 J(6), 其 
元 素 为 


N 


J;(0) = | Arezig) sy inf(xs8) jain (xs0)de (11-291) 
1 3 2 : 


同时 , Cramér-Rao 不 等 式 变 成 矩阵 不 等 式 ， 

>J (0) (11-292) 
其 中 宗 为 关于 参数 9 WAT He eee, DSJ RARE - 三 :是 非 负 定 
和 矩阵。 我 们 不 再 给 予 多 参数 情形 详细 的 证 明 , 其 基本 思路 是 类 似 的 。 

费 希 尔 信息 JOMA EE MELT AEB EKRU? 注意 , 费 希 尔 信息 是 
针对 以 参数 为 指标 的 一 族 分 布 而 定义 的 , SAR, 它 的 定义 针对 所 有 的 分 布 。 但 对 于 任何 分 
布 , 如 f(x), 总 可 以 利用 位 置 参数 9 将 其 参数 化 , 从 而 定义 关于 分 布 族 密度 f(x - 9) 的 费 希 尔 
信息 。 我 们 将 在 17.8 节 更 细致 地 阐述 它们 之 间 的 关系 , 将 证 明 当 使 用 典型 集 的 体积 表述 箭 时 ， 
费 希 尔 信 息 可 以 看 成 是 典型 集 的 表面 积 。 而 费 希 尔 信息 与 相对 箭 之 间 的 进一步 联系 将 在 习题 中 


进行 说 明 。 
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习题 


11.1 Chernoff-Stein 引 理 。 考 虚 两 个 假设 检验 : 
Hi:f=fi 与 Hy:f=f, 
HR Dll A), & 
(a) f(x) =N(0,067),i=1,2. 
(b) f(x) = Ae 4" ,2220,1=1,2. 
(c) 户 (z) 为 区 间 [0, 1] 上 的 均匀 密度 函数 , 而 f(z) 是 [a,a +1] 上 的 均匀 密度 函数 , 假 
定 0<c<1。 
(d) fi 对 应 于 一 枚 均匀 硬币 , 而 户 对 应 于 两 面 都 是 人 头 的 硬币 。 
11.2 DOP1Q) 与 二 2 之 间 的 关系 。 证 明 在 D(P | Q) 关 于 Q 的 泰勒 级 数 展开 式 中 , 第 一 项 (的 
2 fH) MX? 统计 量 





= (P(x) ~ Q(x)’ 


x 





Fi, D(P | QSR RA: E=1+ 和 5， 并 将 其 对 数 函数 展开 )。 


11.3 通用 码 的 误差 指数 。 速 率 为 R 的 通用 信和 源码 达到 的 误差 概率 为 Pee- 19),， 其 中 
Q 为 真实 分 布 , 而 PE DOP | QQ) 在 所 有 满足 HOPER 的 P 上 达到 最 小 值 。 
(a) 根据 Q 和 R 求 P*。 
(b) 设 义 为 二 元 随机 变量 。 求 信 源 概率 分 布 是 Q(z)(zE 10,1|) 的 区 域 , 对 此 区 域 , 速率 
R 对 于 通用 信和 源码 达到 P(") 一 0 是 充分 的 。 
11.4 ”顺序 投射 。 我们 要 证 明 将 Q 投射 到 Pi 中 , 然后 将 其 投影 Q 投射 到 P1 门 P，,， 所 得 的 投影 
与 Q 直接 投影 到 Pi 站 PP, 中 的 投影 相同 。 设 刀 ; 为 X 上 满足 


Bip(x)=1 (11-313) 
. Fp) hilz) Jan, P= 1,2,,r (11-314) 
的 所 有 概率 密度 函数 构成 的 集合 ,而 为 上 满足 
Dplx)=1 (11-315) 
Dp)ai(z) > Bs j -1,2,5 (11-316) 


的 所 有 概率 密度 函数 所 成 之 集 。 假 定 Q#P1UPs, P'E D(P || QERA PEP, E 
达到 最 小 值 , RE DO || D) 在 所 有 RE PNP. 上 达到 最 小 值 。 证 明 R* 使 D(R || P*) 
在 所 有 RE Pi 门 P 上 达到 最 小 值 。 


11.5 计数 。 设 七 = 11,2,… mle 证明: 在 一 阶 指数 意义 下 , 当 充分 大 时 ,满足 上》 gla) 


> a 的 序列 x*EX" 的 个 数 近似 等 于 2 中 ,其 中 
H* = max H(P) (11-317) 


P: DPR) a 
11.6 有 偏 估计 可 能 更 佳 。 抽 自信 (nc2) 分 布 的 个 数据 样本 iid., 考虑 其 y Mo? 的 估计 
问题 。 
(a) 证 明 X We 的 无 偏 估计 量 。 








N 
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(b) 证 明 估计 量 

(X: - X,” (11-318) 

Er 的 有 偏 估 计量 , 而 估计 量 
S} = 





n 


L >) (X: — X,” (11-319) 
是 无 偏 的 。 
(c) 证 明 S 具有 比 S ;更 小 的 均 方 误差 。 说 明 有 偏 估计 量 会 比 无 偏 估计 量 “ 更 佳 "。 
11.7 费 希 尔 信 息 与 相对 炉 。 证明 对 于 一 族 参 数 分 布 | po(x)|,， 有 


lim Cpr gD bo | Pr) = yl (8) (11-320) 
11.8 RARE ROOF. DAR fol) (OCR) MRR REE JO) LA 





_ a fg(X) 706 2 7 (fp)? 
J(8) = By( AE) = |e 
求 如 下 分 布 族 的 费 希 尔 信息 : 
(a) fal x) = N(0,0)= ee 


(b) fa(x) = Ge" * x0. 
(c) Eo(9(X) ~ 6) 的 Cramér-Rao 下 界 是 什么 ? HP O(X)A(a) Al (b) IBA 0 的 无 偏 
估计 量 。 
11.9 两 条 件 独立 分 布 族 的 联合 使 费 希 尔 信息 倍增 。 设 gg(zizz)= fol xi) fear), 试 证 明 
J (0)=2Jr00)。 
11.10 联合 分 布 与 乘积 分 布 。 考 虑 联合 分 布 Q(z,y), 其 边际 分 布 为 Q(z) 和 Q(y)。 设 EE 为 
所 有 这 样 的 型 , 它们 看 上 去 与 Q 成 为 联合 典型 的 : 
E = {P(z,y): — D)P(x,y)logQ(x) — H(X) =0 


- >)P(a,y)logQ(y) ~- HCY) = 0 


- P(x, y)logQ(z,y) 


- H(X,Y) = 0} (11-321) 
a) 设 Qu(z,y) 为 七 xJ 上 的 另 一 分 布 。 证 明 在 E 中 最 接近 于 Q 的 分 布 P 具有 形式 
P’*(x,y)= Qo(x py eto hogQ( 7) + XloeQ(y) + Algal, y) (11-322) 


其 中 AA, An 和 43 由 满足 约束 条 件 而 定 。 并 说 明 该 分 布 是 惟一 的 。 
b) 令 Qo(z;y)= Q(x) Q(y)o ER: Q(z,y) 具 有 式 (11-322) 的 形式 且 满 足 约束 条 件 。 
于 是 , P*(z, 轨 =Q(z,y)， 即 在 下 中 最 接近 于 乘积 分 布 的 分 布 是 联合 分 布 。 
11.11 ERAH Cramér-Rao 不 等 式 。 设 X~ 了 f(x;0), T(XX) 为 关于 9 的 估计 量 。 令 67(9)= 
ET -0 为 估计 量 的 偏 。 试 证 明 





E(T-6y> 


, 2 
+ 160) + b4(0) (11-323) 


11.12 BERE, XXt X, 为 i.i.d. 一 p(x)。 考 虑 假设 检验 Hii p= pi 与 Hy: p= pr & 
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11.13 


11.14 


11.15 


11.16 


L, z=-1 ,z= -1 

1 _ _Jl1 
pi(x)= 4 ,x=0 和 p(x)= 4 ,之 三 0 

+ 立 三 1 1, z=1 


在 约束 条 件 Pr 判定 Hi| Hy WISP, 求 出 Pr 判定 H| Hi 真 } 关 于 H 与 H 的 候 


设 检 验 的 最 佳 误差 指数 。 
Sanov 定理 。 对 Beroulti(g) 随 机 变量 情形 , 证 明 Sanov 定理 的 简单 形式 。 
令 1 在 序列 Xi X20 Xa, 中 出 现 的 比例 为 


X, =} > x, (11-324) 
由 大 数 定理 , 当 n 足够 大 时 , 我 们 预料 X, 接近 于 g。Sanov 定理 处 理 X, 远离 的 概率 。 
特别 地 , MR, p>q> 方 , Sanov 定 理 表明 


lO Ke) Be 





— plog $ +(1 plog} 2 


=D((p,1- p) Il (q, 1-93) | (11-325) 
证 明 下 面 的 步骤 : 
° Pri (X1, X25 Xn) : Xa > PLS È ("Jaa -o (11-326) 
i=lap] “2 


。 证 明 : 在 最 后 一 个 等 式 右边 的 和 式 中 的 最 大 项 正好 是 对 应 于 i=[LzbJ 的 项 。 

。 证 明 该 项 大 约 是 2 P. 

。 利 用 上 面 的 步骤 证 明 Sanov 定理 中 概率 的 上 界 。 利 用 相似 的 讨论 证 明 下 界 , 完成 
Sanov 定理 的 证 明 。 

Sanov, $ X 是 独立 同 分 布 的 且 服 从 N(0,0?)。 


(a) 依据 Pr | 十 >) X3 > oz| 的 行为 ， 求 出 其 指数 。 可 以 使 用 第 一 条 原理 (因为 正 态 分 布 
很 漂亮 ) 或 者 Sanov 定理 来 做 。 
(b) 如 果 一 LX? 3 a ? ,此 时 的 数据 看 似 什么 ? 即 , 使 DCP || Q) 最 小 的 P* 是 什么 ? 


计数 状态 。 假设 一 个 原子 等 概率 地 到 六 种 状态 XE 1s1,52，… ,561。 观 察 n 个 独立 且 服 从 
该 均匀 分 布 的 原子 Xi ,X;,…,X,。 假 设 观察 到 状态 si 出 现 的 频数 是 状态 s2 出 现 频数 的 
2 倍 。 
(a) 在 一 阶 指数 意义 下 , 求 出 观察 到 此 事件 的 概率 是 多 大 ? 
(b) 假设 n 足够 大 , 求 出 第 一 个 原子 Xi 在 此 观测 下 的 条 件 分 布 。 
假设 检验 。 令 [Xi| 为 ii.d. 一 p(x),zE :1,2,…|。 考 虑 两 个 假设 : 

Ho:p(z)=po(x) 与 Hi:p(x)= pc) 


其 中 polz)=(F) Pilz) =p" *,2=1,2,3° 
(a) $R D( po I Pride 








W 
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11.17 


11.18 


11.19 


11.20 . 


11.21 





(b) & Pri Hol =» 并 假设 数据 Xi ,X2，… Xa pa) RER Hy 与 H 的 最 小 误差 概 
率 。 
最 大 似 然 估 计 。 令 及 (zx) 表示 参 变量 04E 有 的 密度 参 变量 能 。 令 Xi ,X2，…,X, 为 独立 同 
分 布 且 服从 广 (z)。 那 么 函数 
lla") = in( TI fz:)) 
PASTA BURR ER F Op 表示 真 参 变 量 值 。 
(a) 令 对 数 似 然 的 期 望 为 
Es lg( X") = Jan TT fC) TT fz)ar 
证 明 
Eo D) = (Aa) -Da Il fa) n 
(b) 证 明 对 数 似 然 的 期 望 关于 9 的 最 大 值 在 = 0, 处 取得 。 
大 偏差 。 令 X1,X2,…,X。 是 独立 同 分 布 随 机 变量 , 且 为 几何 分 布 
PriX=k} = ph (1~ p),k=1,2,°> 
针对 下 面 的 情形 , 找 出 (在 一 阶 指数 意义 下 ) 好 的 估计 


(a) Pr AIX, Sa 
i=t 


已 





(b) Pr {X= kIT DX Sal, 


(c) 4 p=>, a=4f, HEMO). 


费 希 尔 信息 的 另 一 种 表示 。 用 部 分 积分 法 证 明 


a? In fo( x) 


J(@Q)=-E Jg 


斯 特 林 近似 值 。 推 导 关 于 阶乘 的 斯 特 林 近 似 值 的 一 种 弱 形 式 ; 即 , 用 积分 的 近似 求 和 证 
明 
(2)'<nt <n(4)’ (11-327) 
评判 下 面 的 步骤 ， 
In(n!) = Dy In(i) + In(n) <<| Inzdz + İnn 一 …- (11-328) 
以 及 
In(nt) = 2 ln(i) >| lnzdz =o (11-329) 


(7 aaien, 利用 习题 11.20 的 简单 近似 证 明 : 如 果 O<p<1, k= Lap I(E k BAF 
或 者 等 于 np 的 最 大 整数 ), 则 
lim tog”) = ~ plogp ~ (1- p)log(1 ~ p) = HC) (11-330) 


>o 7 


用 户 (i=1,…,mm) 表 示 m 个 符号 的 概率 分 布 ( 即 p; 之 0，22p;=1)。 那 么 下 面 的 极限 什 
是 多 少 ? 
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11.22 


11.23 


11.24 


11.25 


11.26 


n 
1 
= | m-1 
n Ell np np Lnpa dn — iL np; J 
j=0 
1, n! 
= Lig — 
Lapi JtLapal t Lapai]! Cn- da Lnp))! 
累积 差 。 S XX] Xart, Xn J i.i.d.~ Q(z), Yi, Y25300, Yn 为 ii.d. 一 Q2(y)。 假设 xX" 


与 Y 是 相互 独立 的 。 求 Pr | > X; 一 2 Y; > n) 在 一 阶 指数 意义 下 的 表达 式 。 当 然 ， 
该 答案 可 以 保留 参 变 量 形 式 。 
大 似 然 。 令 Xi1,X2，… ,XX 为 ii.d. 一 Q(z),xE11,2,…,m|, 且 P(x) ABA AB 
数 。 我 们 构造 序列 X 的 对 数 似 然 比 为 
P(X, Xatt, Xa) _ 1 Sog P(X;) 
Q” (Xi, X2, X) nA? Q(X) 
并 求 超过 某 一 阔 值 的 概率 。 特 别 地 ，( 在 一 阶 指数 意义 下 ，) 求 

| a (oe GRO) 
答案 里 可 能 存在 一 个 不 确定 的 参 变量 。 
混合 的 费 希 尔 信息 。 设 有 (zx) 和 fo(z) 是 两 个 给 定 的 概率 密度 , Z 是 Bernoulli(@), 其 中 0 
是 未 知 的 。 当 QZ=1 时 , X~fi(xz); 当 Z=0 时 , X~folz). 
(a) 找 出 被 观察 X 的 密度 万 (z)。 
(b) 求 费 希 尔 信息 J(9)。 
(c) 求 8 的 无 偏 估计 均 方 误差 的 Cramér-Rao 下 界 。 
(d) 你 能 给 出 一 个 0 的 无 偏 估计 吗 ? 
aM DRA, SIX |Hiid ~Q, 其 中 

QA) = PAK. = A) = (7 AA- "k= O,1. Deo 

FH, X; 为 i.i.d. ~Bernoulli(m,q). WEB n> offf, 





(11-331) 








+ log 


P(x, = k | LUX > a J> PD 


其 中 P* 服从 一 项 式 分 布 Bernoulli(m ,a) (BU P* (k) = (")ta-aye’, AE [0,1]). R 


出 这 个 A。 
条 件 极 限 分 布 
(a) 如 果 Xi ,XX,,… 是 Bernoulli(2/3), n 是 4 的 倍数 , 计算 


Pri X, = |+5x = 于 | (11-332) 
n iz 





的 精确 值 。 
(b) $ X;E4-1,0,1},X,, X01 -1,0, +1} EAA, 且 为 均匀 分 布 。 
4 n=2k, k>on, 求 下 面 概率 的 极限 


Pr| x =+ 1| 15x =4 | (11-333) 





407 
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11.27 


11.28 


11.29 


变 分 不 等 式 。 对 于 正 随机 变量 X, 证明 
logEp( X) = supl Eg(logX) - D(Q | P)] (11-334) 
其 中 , Ep(X) = DxP(2), MH DC | P) = Qa log HY ,并 且 上 确 界 饥 取 所 有 Q 


(1)>0, UQ(2)=1. RERMIN FREER: 

J(Q) = EglnX - D(Q || P) + aC LV Q(z) ~-1) 
型 约束 条 件 
(a) 给 出 型 Px 的 约束 条 件 , ERATE X- (KP <a, 其 中 到 = LS) X?, x, = 
+x 。 
(b) 求 出 概率 QR- (又 , )2<<w) 的 衰减 指数 。 可 以 保留 答案 为 参数 形式 。 
单纯 形 上 的 均匀 分 布 。 下 列 娜 种 方法 可 以 基于 单纯 形 | CR 0, Qt = 1| 上 的 均 
匀 分 布 生成 一 个 样本 ? 
(a) 令 Y, 为 独立 同 分 布 序列 且 服从 [0,1] 上 的 均匀 分 布 , BEX, = ¥./D0 Y; o 





(b) 令 Y, 为 独立 同 分 布 序列 且 服从 指数 分 布 le-a,y>0, 取 X; = Y/D) Y; « 


(c) (BERR n 块 碎片 ) 令 Yi,Y,,…， ,1 为 独立 同 分 布 序列 且 服 从 [0,1] 上 的 均匀 分 布 ， 
令 X 为 第 ; 个 区 间 的 长 度 。 


历史 回顾 


型 方法 是 由 强 典型 性 发 展 而 来 ，Wolfowitz[566] 利 用 其 中 的 某 些 思想 证 明了 信道 容量 定理 。 
Csiszár 和 Kaner[149] 充 分 发 展 了 这 个 方法 , 由 此 得 到 了 信息 论 中 的 许多 重要 定理 。11.1 节 中 所 
描述 的 型 方法 是 按照 Csiszár 和 Koner HW IRKI FRL 也 归功 于 Csiszár[ 138], 库 尔 贝 克 
[336] 和 Kemperman[309]。Csiszér[141] 还 利用 型 方法 得 到 了 Sanov 定理 [455] 的 一 般 化 形式 。 
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气体 的 温度 与 该 气体 中 分 子 的 平均 动能 相对 应 。 在 给 定 温度 下 , 我 们 能 对 该 气体 的 速度 分 
布 有 多 少 了 解 呢 ?物理 学 告诉 我 们 , 该 分 布 正好 是 给 定 温度 下 的 最 大 炉 分 布 , 也 就 是 著名 的 麦克 
斯 韦 - 玻 尔 兹 曼 (Maxwel-Boltzmann) 分 布 。 最 大 焙 分 布 对 应 于 具有 最 多 微观 状态 (各 种 气体 的 速 
度 ) 数 目的 宏观 状态 (可 由 经 验 分 布 来 刻画 )。 因 而 , 在 物理 学 中 使 用 最 大 焙 方 法 而 得 到 的 结果 都 
是 一 类 AEP, 即 所 有 微观 状态 都 是 等 可 能 的 。 


12.1 BAMA 


考虑 下 面 的 优化 问题 : 求 满足 如 下 条 件 的 所 有 概率 密度 函数 f RK 
1. fx) 之 0, 当 z 在 支撑 集 S 的 外 部 时 , 等 号 成 立 ， 


2. | f(z)dzr =1 (12-1) 
S 


3.| f(z)n(z)dz = a: ， 对 所 有 1<is<m。 


TE, f 为 一 个 定义 在 支撑 集 S 上 ,满足 一 定 的 矩 约束 条 件 a1,a,,… am 的 密度 函数 。 
方法 1( 微 积分 法 ) BO ACE ME POR EMR. RIEA Piz A 


Jf) =- [inf + Aol f + Sail fr: (12-2) 
由 变 分 法 ， 可 以 得 到 该 泛 函 关 于 f(x) 的 “导数 "为 。 
TE =-Inf(x)-1+ag+ Savile) (12-3) 
令 上 式 等 于 0, 得 到 最 大 化 的 密度 函数 的 解析 表达 式 
f(z) = eet Bare) ZES (12-4) 


其 中 Ag As Am 是 要 求 了 满足 约束 条 件 的 待定 系数 。 

利用 微 积分 知识 只 能 建议 给 出 炳 达到 最 大 时 对 应 的 密度 函数 所 应 具有 的 形式 。 为 证 明 这 样 
的 密度 函数 的 确 使 箭 达 到 最 大 ,可 以 求 它 的 二 阶 变 分 。 但 使 用 信息 不 等 式 D(g | M0, 问题 将 
变 得 很 简单 。 

方法 2( 信 息 不 等 式 ) 若 密度 函数 g 满足 约束 条 件 (12-1), 而 广 是 形 如 式 (12-4) 的 解 , WO 
<Dg1 Ff )=—-ACg) t+ ACS" )o Mitt, 对 任何 满足 约束 条 件 的 密度 函数 g, WA hlg)Ss 
h(f* )。 我 们 通过 下 面 的 定理 证 明 。 

定理 12.1.1( 最 大 炳 分 布 ) GES (xr) = A(z) = bot AV | xES, BP AA An 
使 f* 满足 约束 条 件 (12-1) 的 待定 系数 。 则 f* 是 所 有 满足 约束 条 件 (12-1) 的 概率 密度 函数 中 惟 
HE BEA ACP) RAMEE ABR, 

证 明 : 设 g 满足 约束 条 件 (12-1), BA 


h(g) =- | ging (12-5) 
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=- | gn Er (12-6) 
= - Dg ll f*) - | gin” (12-7) 
<- | ging” (12-8) 
= | gQor Lari) (12-9) 
=-| 六 (Ag+ Las; ) (12-10) 
= -| 六 mr (12-11) 
=h(f") (12-12) 


RP (a) Le RTA EY, (OTH /* 的 定义 直接 看 出 ,(c) 是 由 于 /* 和 g 都 满足 约 

RRETARA. EE, (a) 中 等 号 成 立 当 且 仅 当 对 于 除 一 个 0 测 集 之 外 的 所 有 z, Af (2) = 

g(z)。 从 而 惟一 性 得 到 证 明 。 口 
DOVE IEF OA RSE 


12.2 几 个 例子 


例 12.2.1( 温 度 约束 下 的 一 维 气体 ) 假定 约束 条 件 为 EX=0, H EX?= o?。 此 时 最 大 炳 分 
布 的 形式 为 
fla) = tartar (12-13) 
为 了 找到 适当 的 常 系数 A0412 首先 可 以 看 出 该 分 布 与 正 态 分 布 具有 相同 的 形式 。 因 此 , 既 满 
足 约束 条 件 又 使 简 最 大 化 的 密度 函数 为 人 (0,c) 分 布 : 


f(z) -Ene (12-14) 
no 


12.2. 20 F, BHR) 设 S=11,2,3,4,5,6}, 那么 使 得 炉 取 最 大 值 的 分 布 是 均匀 分 布 ， 
即 对 任意 xE S, p(z) = 十。 

例 12.2.3( 鹏 子 ， 具 有 约束 条 件 EX= Dipa) 这 是 物理 学 家 玻 尔 效 曼 使 用 过 的 一 个 重要 
WT. BER n 个 锅子 于 桌 上 , 所 有 出 现 的 点 数 之 和 是 neo BA i 点 (i =1,2,- OWRFHH 


例 是 多 大 ? 
回答 该 问题 的 方法 之 一 就 是 计算 这 n tM PA REHM 点 的 投掷 方式 数 。 共 有 


( n JERR MEME AR, Cn ma，…，n6) 所 决定 的 一 个 宏观 状态 对 应 于 


nis nass Nng 


( ， MURS, 且 每 个 短 观 状态 的 概率 均 为 起 。 为 了 寻求 最 可 能 的 宏观 状态 ,我 们 
Nis N2 NG 
希望 能 够 在 对 总 点 数 约束 的 条 件 
| > in = na (12-15) 
ZERE pi ,的 最 大 值 。 
197 > sn 


利用 原始 的 斯 特 林 近似 公式 ，z!1 = ( 蕊 ) ,我 们 可 得 


e 











| ” jx 5 7 (12-16) 
Nis A2 ane IL() i 
i=1 \€ 
6 n. 
=I (z) (12-17) 
i=1 i 
= ent (3888) (12-18) 


n 


FR, 在 约束 条 件 (12-15) 之 下 求 | ， i p 的 最 大 值 几乎 等 价 于 在 约束 条 件 了 认 = a 之 下 


RH( Pi, Pass Po HK. 在 此 约束 条 件 下 ， 使 用 定理 12.1.1, A a Kw 
数 为 


e? 


pi = (12-19) 
Se 
其 中 BREL =a 的 待定 参数 。 于 是 ， 最 可 能 的 宏观 状态 为 ( np? ,np2 npg), HAR 
们 期 望 有 n; = np? MRF UI 点 。 
在 第 11 章 中 , 我 们 给 出 推理 以 及 近似 的 基本 合理 。 事 实 上 , RNALUERBARKMNE 
观 状态 是 最 有 可 能 发 生 的 , 而 且 该 状态 也 包含 了 几乎 全 部 的 概率 。 例 如 , 对 于 任何 有 理 数 a, 当 


n> oofiy , 





Pr 








Nps |< e,i = 1,2,°+,6 2 X; = na| 1 l (12-20) 


沿 着 使 得 na 为 一 个 整数 列 的 子 列 上 成 立 。 
例 12.2.4 %&S=[a,6], 无 其 他 约束 条 件 。 此 时 ， 最 大 炳 分 布 就 是 该 区 间 上 的 均匀 分 布 。 
例 12.2.5 设 S=[0,+%) 且 EX=p, WAKA 


fas ek, 120 (12-21) 


该 问题 有 一 个 物理 解释 。 考 虑 分 子 在 大 气 中 的 高 度 X 的 分 布 。 分 子 的 平均 势能 是 固定 的 , 气体 
趋向 在 El mgX] 是 固定 的 约束 条 件 下 使 得 箭 最 大 的 分 布 。 这 是 一 个 指数 分 布 ,其 密度 函数 为 : 
f(a) =Ae* 220, EER, 大 气 的 密度 函数 的 确 具 有 这 种 分 布 。 41 

Bi 12.2.6 设 S=(-co,+oo) 且 EX= u. RA, RAKETER, FURARKMAH 
(考虑 在 差 越 来 越 大 的 正 态 分 布 。) 

例 12.2.7 设 S=(-oco,co),EXK=al 且 EX2= az。 则 最 大 焙 分 布 为 N(ai,az- at)。 

例 12.2.8 设 S=R", EX,X;=Ky, 1<i, j<n. RB—-TSRWAF, 上 述 分 析 方法 依然 
GAH ARAKMD AHEAD : 





to 


F(x) = eb Dae, (12-22) 
由 于 指数 二 次 型 , 不 难看 出 它 是 一 个 0 均值 的 多 元 正 态 分 布 。 由 于 必须 满足 二 阶 矩 约束 条件 ， 必 
然 是 一 个 以 Ks 为 协 方差 阵 的 多 元 正 态 分 布 ， 因此 其 密度 函数 为 


f= RR (1228) 


如 第 8 章 推 导 的 那样 ,可 以 得 到 它 的 炳 为 
RON (0,K))= 广 log(2re)"|K| (12-24) 





> 
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例 12.2.9 假定 约束 条 件 依然 与 例 12.2.8 一 样 , 但 EXX; = K; 仅 对 特定 的 (i,;)€A。 例 
如 , 对 于 i=j 圭 2, 我们 可 能 只 知道 K;。 此 时 , 将 式 (12-22) 与 式 (12-23) 比 较 , 能 得 到 (K-71);= 
Oi, IEA’, 即 当 (i,j) 落 在 该 约束 集 之 外 时 , 协 方差 阵 的 逆 矩 阵 中 的 对 应 项 是 0)。 


12.3 FRRAAA 
我 们 已 经 证 明了 在 约束 条 件 
| ple sarde = a; (12-25) 


之 下 , RAM oO PERK 
F(x) = bot MAA) (12-26) 
如 果 存 在 满足 约束 条 件 (12-25) 的 参数 4A0,41,… ,和 4。 
我 们 现在 考虑 一 个 棘手 的 问题 : 没有 满足 约束 条 件 (12-25) 的 参数 A; BRUE, “BK 
仍然 可 以 求 得 。 例 如 , 在 约束 条 件 


F Aade =1 (12-27) 
[I ar(z)dz =a, (12-28) 
| 2 flæ)de =a (12-29) 
| rz)dz =a; (12-30) 
之 下 , RRA. WH, RERAM AE, 它 必 为 如 下 形式 
f(a) = thst hs tase (12-31) 


但 当 a, 为 非 零 时 , 有 | f= <， 从 而 密度 函数 不 能 标准 化 。 所 以 A, 必须 为 0。 而 此 时 有 四 个 
方程 但 只 有 三 个 变量 , 一般 来 说 , 这 不 可 能 选择 到 合适 的 常数 。 上 述 求 最 大 炳 的 方法 似乎 已 经 失 
效 了 。 

方法 失效 的 理由 很 简单 : 在 这 些 约束 条 件 下 , 粹 有 一 个 上 确 界 , 但 不 可 能 达到 该 上 确 界 。 考 
虑 仅 对 一 阶 矩 和 一 阶 矩 约束 的 问题 , 此 时 , 例 12.2.1 的 结果 表明 使 得 科 最 大 化 的 分 布 必 是 具有 
相应 的 矩 的 正 态 分 布 。 如 果 再 加 上 三 阶 矩 约束 ,最 大 炉 就 不 可 能 更 大 。 那 么 到 底 有 没有 可 能 达 
AARAA? 

员 然 不 能 达到 ,但 可 以 任意 接近 它 。 考 虑 个 正 态 分 布 ， 当 z BEBAN, MAEN 
的 “扰动 "。 得 到 新 分 布 的 各 阶 矩 与 原 分 布 的 各 阶 矩 几乎 相同 ， 而 改变 最 大 的 是 三 阶 拭 我们 其 
至 可 以 再 添加 新 的 扰动 来 抵消 第 一 次 扰动 所 引起 的 变化 , 使 一 阶 矩 和 二 阶 矩 侈 复 到 原来 的 值 。 
同时 , 通过 适当 选择 扰动 位 置 ,可 以 在 新 的 分 布 的 炳 没有 明显 减少 (相对 正 态 分 布 的 炉 而 言 ) 的 情 
况 下 , 三 阶 矩 可 以 取 到 任意 值 。 利 用 该 方法 , 可 以 任意 接近 于 最 大 炉 分 布 的 上 确 界 。 我 们 概括 为 


suph (f) =h(N (0, a2- a3) =F In2me( a — at) (12-32) 
AIT AG REE 。 可 达 。 
12.4 Whit 
假设 |X;| 是 一 个 0 均值 的 平稳 随机 过 程 , 定义 它 的 自 相关 函数 为 
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0 均值 过 程 的 自 相关 函数 的 仿 里 叶 变 换 是 该 过 程 的 功率 谱 密度 函数 SA): 
S(A) = >) Rome, -nL (12-34) 


其 中 i= vV 一 1。 由 于 功率 谱 密 度 函 数 揭示 过 程 的 结构 ,所 以 通过 过 程 样本 直接 估计 功率 谱 
密度 是 非常 实用 的 。 

有 很 多 种 方法 可 以 估计 功率 谱 , 但 最 简单 的 方式 是 通过 取 长 度 为 n 的 样本 数据 的 样本 平均 
来 估计 自 相关 函数 ， 

R(k) = TRX XX (12-35) 
如 果 我 们 利用 样本 自 相 关 函 数 RR(: ) 的 所 有 值 来 计算 功率 谱 , 那么 对 于 充分 大 的 n, 利用 公式 
(12-34) 所 得 到 的 功率 谱 的 估计 其 实 并 不 收敛 于 真实 的 功率 谱 。 从 而 , 该 方法 称 为 周期 图 方法 ， 
极 少 使 用 。 其 理由 之 一 是 , 周期 图 方法 , 利用 观测 数据 估计 自 相 关 函 数 时 会 有 不 辣 的 精度 。 对 于 
较 小 的 &( 称 为 时 滞 ) 所 作 的 估计 是 基于 较 大 的 样本 量 , 而 随 着 & 增 大 时 , 使 用 到 的 样本 越 来 越 
少 。 所 以 , 只 有 对 于 较 小 的 ,估计 才 是 较 准确 的 。 该 方法 可 以 修正 为 , 对 于 较 小 的 & 时 用 估计 
值 作为 其 自 相 关系 数 , MATRAKA k, 令 它 的 自 相 关系 数 为 0。 但 由 于 存在 零 自 相关 的 突变 ， 
这 样 做 会 带 入 人 为 的 因素 。 为 此 , 提出 了 各 种 各 样 的 加 窗 处 理 方 案 , 旨 在 平滑 这 种 突变 。 但 是 ， 
加 窗 处 理 不 仅 降低 了 频谱 的 分 辩 率 , 而且 会 导致 负 功 率 谱 估计 。 

20 世纪 60 年 代 后 期 , 正当 研究 谱 估 计 在 地 球 物 理学 中 的 应 用 问题 时 ，Burg 提出 了 另外 一 种 
方法 。 该 方法 不 是 令 大 步 长 的 自 相关 系数 为 0, 而 是 取 为 在 对 数据 作 最 少 的 假设 之 下 可 以 得 到 的 “1415 
值 ( 比 如 ,到 使 过 程 的 简 率 最 大 化 的 数值 )。 这 与 Jaynes[143] 中 所 清晰 论述 的 最 大 炳 原理 一 致 。 
Burg 假设 过 程 是 平稳 高 斯 的 , 发 现 了 满足 一 定 的 自 相 关 约 束 条 件 下 使 粹 最 大 化 的 过 程 就 是 适当 
阶 的 自 回归 高 斯 过 程 。 在 某 些 应 用 中 , 可 以 假定 一 个 自 回归 模型 作为 数据 的 底 过 程 , 该 方法 已 被 
证 明 在 确定 模型 的 参数 时 很 有 用 (例如 , 语音 中 的 线性 可 预测 编码 )。 该 方法 (最 大 炉 方 法 或 者 
Burg 方法 ) 广 泛 用 来 估计 谱 密度 。 在 12.6 节 中 证 明 Burg 定理 。 


12.5 高 斯 过 程 的 焙 率 
在 第 8 章 中 我 们 定义 了 连续 型 随机 变量 的 微分 炉 。 现 在 可 以 将 炉 率 的 定义 推广 到 实 值 随机 

过 程 。 
定义 BIXI, XER 为 一 个 随机 过 程 ， 如 果 下 面 极限 存在 ， RABE RF AREN 
ACX,, Xo, Xn) 








A(X) = lim 5 (12-36) 

与 离散 情形 相同 ,可 以 证 明 平 稳 过 程 的 上 述 极限 是 存在 的 , 且 可 以 用 两 种 形式 表示 
h (X) = imt eaa) (12-37) 
= limh (X, | Xa -117 X1) (12-38) 


对 于 平稳 高 斯 随机 过 程 , 我 们 有 
h (Xi, X21, Xq) = low me)" | K™ | (12-39) 


其 中 协 方差 矩阵 KO BB—FITHW RO), RO) =, R(n — 1) ARE. FE KY? = 
R(\i-j])=E(X, - EX,)(X,- EX). 4n> ont, 该 协 方差 矩阵 的 特征 值 的 包 络 存在 且 正 好 [416] 
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是 该 随机 过 程 的 功率 谱 密度 函数 。 其 实 ， 科 尔 莫 戈 罗 夫 已 经 证 明了 平稳 高 斯 随机 过 程 的 税率 可 
以 表示 为 


h(X) = Foge + 二 | logS(a)da (12-40) 
炉 率 又 可 以 表示 为 lim,.wh(X,|X”!)。 由 于 随机 过 程 是 高 斯 的 , 所 以 条 件 分 布依 然 是 高 斯 


的 ， 从 而 其 条 件 炉 率 为 子 log2reo%%， 其 中 xx 是 在 已 知 无 穷 过 去 的 条 件 下 对 X 的 最 佳 估 计 的 误差 
的 方差 。 于 是 


2 L omw) 
Oo amen (12-41) 


HP A(X) (12-40) Bw, BM, 在 已 知 无 穷 过 去 条 件 下 , PPM BREN — MER 
佳 估计 的 最 小 均 方差 。 


12.6 Burg RAMMED 
定理 12.6.1 满足 如 下 约束 条 件 


EX;X;4,= er k=0,1,%,p 对 所 有 的 i (12-42) 
RAW RM Pt eX, 必 是 如 下 形式 的 阶 高 斯 -马尔 可 夫 过 程 ， 
Xi 一 一 yoX ， 十 Zi (12-43) 


HP Z A iid. ~N (0,07),  ay,07,° 505,07 是 满足 条 件 (12-42) 的 待定 参数 。 

注释 ”在 该 定理 中 , 我 们 并 没有 假设 过 程 1X;| 是 (a) 零 均值 过 程 , 或 者 (b) 高 斯 过 程 , 或 者 (c) 
宽 平稳 过 程 。 

证 明 : 设 Xi,X2,…,X, 是 满足 约束 条 件 (12-42) 的 随机 过 程 , 令 Z1,Z2 Z, 为 一 个 与 X1， 
X2，… X, 具有 相同 协 方差 矩阵 的 高 斯 过 程 。 此 时 ,由 于 多 元 正 态 分 布 满足 协 方差 约束 的 所 有 随 
机 向 量 的 炉 达 到 最 大 值 , 根据 链 式 法 则 以 及 加 入 条 件 可 以 减 小 精 的 事实 ,我 们 得 到 


hCX 1. X23, X GAC Z1, 225° Zn) (12-44) 
= A(Z Z) + RZ | Zens Z-Z) (12-45) 

i=ptl 
Chi Zp) + DAZ | Zii Zis Zip) (12-46) 

i= ptt 


接 下 来 ,定义 一 个 p OEM BRIR ZZ, 使 得 它 与 Zi,Z2，…,2, 具有 直到 阶 
的 相同 的 分 布 。( 该 过 程 的 存在 性 利用 Yule Walker 方程 立即 可 证 。) 此 时 , HF h (Z) Za, 
Zi-a9° s Zi- p MA p 阶 分 布 有 关 ， 于 是 ， h (Z; | Zi_i, Li-2, “Zip) = h(Z; | Zi-1,21i-2, vets 
Zi_,)。 于 是 承接 前 面 的 不 等 式 , 我 们 得 到 


h( Xi, Xo. Xan) < h(Zi, t, Zp) + >) h(Z, | Zj-15Zj-29°**» Zi-p) (12-47) 
i= ptt 
= a(Z1 Zp) + D ACZ I Lin Zia Zing) (12-48) 
=h(Z,Z 25°: Za) (12-49) 
上 述 的 最 后 等 式 利 用 了 过 程 1Z4} 的 p 阶 马尔 可 夫 性 。 两 边 同 除 以 n, 并 取 极 限 , 可 得 
imta (Xi, Xa Xq)<lim Th(Z1, 235° Z4) =h" (12-50) 


其 中 
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ht = F log2nea” (12-51) 
PRLKEM-SRAIRHRBHS, AT, BARTER A PERI AE RENEA — TSR 
条 件 的 p 阶 高 斯 -马尔 可 夫 过 程 。 口 


该 证 明 过 程 的 精髓 是 : 对 于 任何 一 个 随机 过 程 的 有 限 片 段 的 炉 , 必 有 一 个 高 斯 随机 过 程 的 片 
段 与 它 具 有 相同 的 协 方差 结构 ,而 对 应 的 炉 大 于 原来 片段 的 炉 。 该 原始 片段 的 粹 其 实 可 以 被 一 
个 满足 已 知 协 方差 约束 的 极 小 阶 高 斯 -马尔 可 夫 过 程 的 精 来 控制 。 这 样 的 过 程 不 仅 存在 ,而且 利 
用 Yule- Walker 方程 的 手段 可 以 获得 一 个 便捷 形式 , 具体 如 下 。 

注意 参数 al,az，…,ap 和 o? 的 选取 : 给 定 自 相 关 序 列 RO), R), RO), 是 否 存 在 具有 
这 些 协 方差 的 p 阶 高 斯 -马尔 可 夫 过 程 ? 假定 一 个 式 (12-43) 形 式 的 过 程 , 我 们 能 否 选择 一 组 参数 
ar, 满足 约束 条 件 ? 将 式 (12-43) 两 边 同 乘 X;_ ,之 后 取 期 望 , 注意 ( 自 相关 函数 的 关系 式 )R(k)= 
R(-k), 可 得 


R(0) =- DaR(- k) +o? (12-52) 
以 及 | 
RU) =- SaRU-k), 1= 1,2." (12-53) 


这 就 是 所 谓 的 Yule-Walker 方程 组 , 共有 p+1 CHERE p+1 个 未 知 量 a1,a2, aps 00 A 
此 , 我 们 可 以 通过 协 方差 解 出 过 程 中 的 这 些 参数 。 

利用 一 些 快速 的 算法 比如 Levinson 算法 和 Durbin 算法 [433], 根据 方程 的 特殊 结构 和 协 方差 
数据 很 有 效 地 将 参数 al ,a,,… a, 求解 出 来 (为 了 记号 一 致 , 设 ao 一 1。)。Yule-Walker 方程 的 方 
法 不 仅 提供 计算 参数 cl ,a;,… ,as Mo’? 的 方便 算法 ,也 揭示 了 当时 滞 超 过 了 p SB KBR 
的 行为 特征 。 大 时 滞 的 自 相 关 函 数 是 所 有 时 滞 不 超过 p 的 自 相关 系数 值 的 一 种 延 拓 。 这 些 值 称 
为 自 相关 函数 的 Yule Walker 延 拓 。 可 以 看 出 , RAMEN WRB 


S(a) = È R(m)e (12-54) 


= -KS (12-55) 
11+ EET 
这 是 在 约束 条 件 RO), RO), ROZ FEKRR. 
但 是 , 如 果 仅 求 p MAM- SRAAREHAS, 那么 , 可 以 不 计算 所 有 a 而 直接 得 到 它 。 
令 K, 为 该 过 程 的 自 相关 矩阵 (该 矩阵 的 第 一 行为 R(0),R(1),…,R(p))。 对 于 该 过 程 , RS 


于 
h* = h(X,| Xp 1 Xo) =h( Xo. Xp) — h(KXo, Xp-1) (12-56) 
=F log(2ne)?*"| Ky | - Flog(2me)?| K-11 (12-57) 
-1 Kyl _ 
-= 立 iog(2re)TR A] (12-58) 


在 处 理 实际 问题 时 ， 一 般 先 得 到 一 个 样本 序列 Xi XX，,… Xn, 通过 该 数据 , 将 自 相关 函数 估 
计 出 来 。 一 个 重要 的 问题 是 , 究竟 应 该 考虑 多 少 个 自 相关 步 长 ? RAZ, 最 佳 的 p 应 该 是 多 少 ? 
从 逻辑 上 讲 , 漂亮 的 方法 是 选择 合适 的 p, 使 对 于 数据 的 两 步 台 描述 的 总 描述 长 度 最 小 。 该 方法 
是 由 Rissanen[442, 447] 和 Barron[33] 分 别提 出 的 , 很 接近 科 尔 莫 戈 罗 夫 复杂 度 的 思想 。 


A 
O 
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习题 

12.1 BX. 在 r20, EX=a,,EInX=0, 的 条 件 下 ， 求 达 到 最 大 灶 的 密度 函数 fo M, 在 约 
RAE |af(x)de = a1» | (inz) f(z)dz = a 之 下 , K mal -| fing |, 其 中 积分 区 间 是 0< 
z< +co。 求 得 的 密度 函数 属 何 分 布 族 ? 

12.2 Ak P FAR) D(P || Q)。 和 欲求 得 满足 约束 条 件 

P(x) g:(2) =a;,7= i eai 

的 离散 概率 密度 函数 P(x) ,xE |1,2,…|( 的 参数 形式 ), EER DCP || Q) 关 于 所 有 
满足 P(x)g(zx)=ai(i=1,2,…) 的 PP 达到 最 小 。 
(a) 使 用 拉 格 朗 日 乘 子 法 可 猜测 


P* (2) = Ql) Elt (12-62) 
如 果 存 在 满足 关于 a; 的 约束 条 件 的 4;, RTMRESRME REAREA F HRAM 
分 布 定 理 的 推广 。 
(b) 验证 P* OPA DCP || Q ) 达 到 最 小 。 
12 3， 最 大 炉 过 程 。 求 满足 如 下 约束 条 件 的 最 大 焙 率 随机 过 程 | X;| 了。: 
(a) BX? =1,%=1,2,.~ 


(b) EX?=1,EXXie1= 5 8= 1,2. 


(c) 对 于 (a) 与 (b) 中 的 过 程 , RKTT 
12.4 BAARDA RAKAA. WRG) 46 HF RAIA bp(z,y) 是 什么 ? 


上 | 一 上 | 一 bl 一 
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12.5 


12.6 


12.7 


12.8 


12.9 


12.10 


12.11 


提示 : 可 以 猜测 并 验证 更 一 般 的 结果 。 
具有 固定 边际 分 布 的 过 程 。 考 虑 固定 的 成 对 边际 密度 
fx, x (T1372), fr, x (£2523), fx ,x (Tn-1s Tn) 
的 全 体 密度 函数 。 证 明 具 有 这 些 边 际 分 布 的 最 大 炉 过 程 是 具有 如 此 边际 分 布 的 一 阶 (可 能 
随时 间 变 化 的 ) 马 尔 可 夫 过 程 。 并 确定 最 大 化 的 分 布 f° (zl,z，…,zo) 的 表达 式 。 
每 一 个 密度 函数 均 是 最 大 炉 密 度 。 设 万 (z) 为 一 个 给 定 的 密度 函数 。 已 知 函 数 r(x), R 


设 总 (z) 是 满足 | F(z)r(z)dz = a 的 全 体 太 中 使 A(C) 最 大 化 的 密度 函数 。 现 在 令 r(z) 
=Info(z)。 证 明 可 以 选取 适当 的 = ap 使 得 gla) = 万 (z)。 于 是 ,万 (z) 是 在 约束 条 
件 | finfo = ay 之 下 的 最 大 炉 密 度 。 
WAREZ. 1X V- ME EXX = Ri,k=0,1,…,P。 考 虑 X, 的 线性 预测 ， 即 
x, = Sox, 

假定 n> p, 求 E 

max minE (X, ~ ~X,)? 
其 中 ， MIDI BA UAH b, 最 大 信 取 自 所 有 满足 Ro, =, R, 的 密度 函数 fo 


最 大 丧 特 征 函 数 。 在 关于 特征 函数 Pu) = | exe7(z)dz 的 约束 条 件 下 , REKER 
数 f(z) 9 0O<z 委 a。 答案 只 能 给 出 参数 形式 。 


(a) 在 特定 点 uo, 求 满足 | 7(z)cos(xoz)dz = a 的 最 大 炉 密 度 /(z)。 


(b) 求 满足 f(z)sin( woz)dz = 8 的 最 大 炳 密度 /。 
(c) 已 知 特征 函数 在 特定 点 uo 的 值 Puo), RAMEE BR ALz)(0<z 委 ca)。 
(d) 当 a = co 时 会 有 什么 情况 发 生 ? 
RAAE 
(a) 求 出 对 任意 的 i, 均 满 足 Pri X; = X;,,} = 二 的 最 大 炳 率 二 {BG BLL AEX; bP 0 KE 
10,1}. 

(b) RAMBLAS? 

PARKA. S Y=X +X, 分 别 根 据 Xi 与 X 的 条 件 求 出 在 约束 条 件 EX] = Py, EX} 
=P, 下 Y 的 最 大 箭 密度 。 其 中 ，X1 与 X 满足 下 列 条 件 ， 

(a) Æ Xi 与 X; 相互 独立 。 

(b) 若 Xi 与 X, 相互 相关 。 

(c) 证 明 (a)。 

马尔 可 夫 链 的 最 大 灶 。 令 |X,| 是 一 个 平稳 的 马尔 可 夫 链 XE 11,2,31。 令 T(X,;X,+2) 
=0, Vno 

(a) BEKARDRAMEAREHA? 

(b) 对 于 给 定 的 值 a, OXSa<log3, 如 果 IX, X42. =a, Vn, 会 怎样 ? 
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12.12 


12.13 


12.14 


12.15 


12.16 


12.17 


12.18 


12.19 


12.20 


AMR HBR. OLX, EAREN, 而 K E Xl X Ait, 条 件 均 
值 广 ,1 是 依赖 前 面 ” 个 变量 X" 的 随机 变量 。 这 里 , 义 , 41 是 X,+1 的 最 小 均 方差 准则 下 
基于 历史 X 的 预测 值 。 
(a) ASAE AX, i X ) 给 出 条 件 方差 ELE (X, Xn D I XL PR. 
(b) 当 {X, 1 是 一 个 高 斯 随机 过 程 时 , 等 式 成 立 吗 ? 
最 大 炉 率 。 设 |X;| 是 字符 集 10,1} 上 的 随机 过 程 且 出 现 00 序列 的 概率 为 0。 那么 , 该 过 
程 的 最 大 粹 率 是 多 少 ? 
RAK 
(a) 满足 下 面 两 个 条 件 : 
EX8=a， EX"“=b 
MRAM RE A(z) 的 参数 形式 是 什么 ? 
(b) 满足 条 件 E(X8+ X"®)=-a+b HRKABE f(z) 的 参数 形式 又 是 什么 ? 
(c) MAREK? 
RAM. RG ERE AEE 
[Aeda =a 

HBAMBE f(z) 的 参数 形式 。 并 给 出 参数 的 取 值 范围 。 
RABE, SRMUNMBRSIX|. XER., WE 

Ro=EX?=1， Ri=EXX =} 
REAR 
二 元 最 大 炳 。 考虑 一 个 二 值 随机 过 程 |X,} > XE | -1, +1} ’ H 

Ro= EX?=1, Ry = EX:X;+1= 
(a) RELA RAKE. 
(b) HAE BP? 
(c) 是 否 有 伯 努 利 过 程 满足 这 些 条 件 ? 
RAI. ERRAR 下 (二 mm | V2 + mgZ) = E F, BKM A(Z, Ver Vy, Vedo WEH 
得 到 的 分 布 满足 


1 
2 


2 
E(> m || V ||? )=2£, EmgZ = Eo 


因此 , 不 考虑 强度 g 时 ， 能 量 的 乞 储存 在 势能 场 中 。 

1# 

(a) 求 出 满足 EX?=1,EX.X;..=0,1=1,2, WEARER EI X,}. 
(b) RAMBA BL? 

(c) 这 个 过 程 的 EXX 1 是 多 少 ? 

最 小 期 望 值 

(a) 满足 下 面 三 个 条 件 
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(i) F(z)=0,Y zs 

Gi) |" Ade = 1 

(iil) ACA)=h 

的 所 有 的 概率 密度 函数 /(z) 上 求 EX 的 最 小 值 。 

(b) 若 条 件 (替换 为 f(z)= 0，VY z<a, 求 EX 的 最 小 值 。 
历史 回顾 


BARRE 19 世纪 在 统计 力学 领域 中 产生 的 ,Jaynes[294] 的 工作 拓宽 了 其 用 途 ，Burg 
[80] 又 将 其 应 用 于 谱 估 计 领 域 。 而 给 出 Burg 定理 的 信息 论 方法 的 证 明 者 则 是 Choi 和 Cover[ 98]. 
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第 13 章 ， 通 用 信 源 编码 


本 章 我 们 讨论 通用 信 源 编码 的 基本 知识 。 首 先 给 出 最 小 最 大 遗憾 (minimax regret) 数 据 压 缩 
的 定义 ,然后 证 明 通 用 性 的 描述 成 本 为 包含 所 有 信 源 分 布 的 相对 精 球 的 信息 半径 。 最 小 最 大 定 
理 表 明 , 这 个 半径 为 给 定 信 源 分 布 后 的 相应 信道 的 信道 容量 。 算 术 码 的 优势 体现 在 对 于 信 源 分 
布 使 用 ， 而 这 种 分 布 可 以 通过 走马 观 花 地 学 习 得 到 。 最 后 ， 给 出 单 序列 压缩 的 定义 ,并 通过 一 系 
列 的 Lempel-Ziv 解析 算法 可 以 达到 这 个 压缩 。 

在 第 5 章 , 我 们 曾 介绍 过 如 何 获得 信 源 的 最 简洁 表示 的 问题 ,并 证 明了 任何 惟一 可 译 码 的 期 
望 长 度 都 以 它 的 简 为 下 界 。 同 时 也 证 明了 如 果 已 知 信 源 的 概率 分 布 , 就 可 以 利用 赫 夫 曼 算法 构 
造 出 这 个 概率 分 布 的 最 优 码 (具有 最 小 期 望 长 度 ) 。 

然而 在 实际 中 , 对 于 多 数 情形 , 我 们 并 不 知道 信 源 服从 的 概率 分 布 , 因而 也 就 不 能 直接 应 用 
第 5 章 中 的 方法 。 反 之 , 我 们 所 知道 的 仅 是 一 簇 分 布 。 一 个 可 行 的 办 法 是 等 观察 完 所 有 的 数据 
Ja, 从 数据 中 估计 出 这 个 分 布 , 并 利用 该 分 布 去 构造 最 优 码 , 然后 再 回 到 起 点 , 利用 构造 出 的 编 
码 去 压缩 数据 。 当 数据 量 相当 少 的 时 候 , 这 样 的 两 阶段 程序 才 在 实际 中 有 一 定 的 应 用 。 但 是 , K 
际 情形 往往 使 得 我 们 用 两 阶段 对 数据 进行 处 理 变 得 不 可 行 , 因而 对 于 数据 压缩 , 很 有 必要 设计 一 
个 流程 (或 称 在 线 ) 算 法 , 它 能 够 “学 习 ” 数 据 的 概率 分 布 , 并 用 这 个 分 布 去 压缩 即将 出 现 的 数据 。 
本 章 我们 将 说 明 存 在 这 样 的 算法 , 而 且 对 一 簇 分 布 中 的 任何 分 布 都 能 表现 得 很 好 。 

至 于 其 他 情形 , 也 就 是 说 完全 不 知道 数据 的 概率 分 布 , 所 能 知道 的 仅 是 单个 结果 序列 。 例 
如 , 文本 和 音乐 数据 就 是 这 样 的 信 源 。 至 此 , 大 家 会 问 , 对 这 样 的 序列 我 们 能 够 压缩 得 多 好 ? 如 
果 在 算法 中 不 加 和 人 任何 的 限制 , 我 们 会 得 到 一 个 毫 无 意义 的 答案 : 总 是 存在 一 个 函数 ， 可 将 一 个 
特定 的 序列 压缩 成 1 比特 ,而 其 他 每 个 序列 得 不 到 任何 压缩 。 显 然 , 该 函数 对 数据 是 “过 拟 合 ” 
的 。 尽 管 如 此 , 如 果 与 伯 努 利 分 布 或 & 阶 马尔 可 夫 过 程 的 最 优 码 字 匹 配 作 个 比较 , 我 们 就 能 得 到 
许多 有 趣 的 结果 , 它们 在 许多 方面 与 通过 概率 或 平均 情形 分 析 所 得 到 的 结论 非常 类 似 。 要 解决 单 
序列 的 可 压缩 性 问题 最 终 得 归结 于 序列 的 科 尔 莫 戈 罗 夫 复杂 度 ,， 这 个 问题 将 在 第 14 章 中 讨论 。 

本 章 开 始 , 我 们 将 信 源 编码 问题 看 成 一 个 游戏 , 编码 者 选择 一 个 码 , 试图 最 小 化 表示 的 平均 
KE, 同时 自然 地 会 选取 信 源 序列 上 的 一 个 分 布 。 这 个 游戏 具有 一 个 同 信 道 容量 相关 的 值 ， 而 该 
信道 的 转移 矩阵 的 行 就 是 信 源 序列 的 可 能 分 布 。 然 后 讨论 在 给 定 已 知 或 “估计 ”分 布下 的 信 源 序 
列 的 编码 算法 。 特 别 地 , 我 们 描述 算法 编码 , 它 是 5.9 节 中 人 允许 信 源 符 字符 序列 增 量 式 编码 和 译 
#3 Shannon-Fano-Elias 编码 的 推广 。 

然后 , 我 们 讨论 一 类 自 适应 字典 式 压 缩 算法 中 的 两 个 基本 版 本 , 这 基于 Ziv 和 Lempel 的 文章 
[603, 604], 称 为 Lempel-Ziv 算法 。 对 于 这 些 算法 , 我 们 给 出 渐 近 最 优 性 的 证 明 , 由 此 表明 在 界 
限 方面 , 它们 能 达到 任何 平稳 饥 历 信 源 的 炉 率 。 在 第 16 章 , 我 们 将 通用 性 的 概念 推广 到 股票 市 
场 中 的 投资 理论 , 并 阐述 类 似 于 数据 压缩 通用 方法 的 在 线 投资 组 合 选择 程序 。 


13.1 通用 码 与 信道 容量 


假定 随机 变量 X 服从 分 布 族 | Ps} 中 的 某 个 分 布 , 其 中 参数 OC 11,2,…, m1! 未 知 。 我 们 要 找 
到 该 信 源 的 一 个 有 效 码 。 
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由 第 5 章 的 结论 可 知 ,如 果 知道 9， 能 构造 出 码 长 为 (+) = log > (oy 的 码 ,其 平均 码 长 等 、[429| 
于 Hila) =- >) po(z)logpo(z), 这 是 我 们 最 为 希望 的 结果 。 我 们 都 知道 , 在 期 望 长 度 上 , I(r) 
需 为 整数 的 代价 至 多 是 1 比特 , 因而 为 方便 起 见 ， 本 节 狼 述 中 ,我 们 忽略 1(z) 需 为 整数 的 限制 。 
由 此 ， 
， 1 
min E,,L/(X)]=E,, [log s(x7 |= H(po) (13-1) 


然而 , 如 果 我 们 并 不 知道 真实 分 布 po, 但 同时 希望 得 到 同样 有 效 的 编码 , 问题 该 如 何 处 理 ? 
这 时 , 如 果 使 用 的 码 的 码 长 为 (r), 相应 的 概率 为 g(xz)=2-“”, 我 们 定义 码 的 元 余 度 为 编码 
的 期 望 长 度 与 期 望 长 度 的 下 界 之 差 : 





R(po.4) = E,LUX)] - E, oe 5055 | (13-2) 
= Yala) (1) ~ og 5755) (13-3) 
1 1 
= Deol x) (log 75 一 log 7 (13-4) 
= = Diol x)log ne (13-5) 
= = Dip, ll ag) (13-6) 


其 中 g(z)=2-42) 为 对 应 于 码 字 长 度 是 !(z) 的 分 布 。 
无 论 真实 分 布 如 如 何 , 我 们 总 希望 找到 一 个 码 , 能 始终 表现 得 很 好 , 由 此 , 我 们 定义 最 小 最 
大 宛 余 度 (minimax redundancy) 的 概念 如 下 
R* = min maxR (po, q)= min max D( po | g) (13-7) 


当 分 布 g 位 于 包含 所 有 分 布 思 的 信息 球 的 * Hub" AY, E 
述 最 小 最 大 元 余 度 就 能 达到 。 也 就 是 说 , 这 时 9 到 任何 分 布 po 
的 最 大 距离 得 到 了 最 小 化 (图 13-1)。 


为 求 得 分 布 g, 使 它 在 相对 炉 意 义 下 尽 可 能 与 所 有 可 能 的 429 
pp 接近 , 考虑 如 下 的 信道 : 

[pi | 

py 13-1 包含 所 有 pe 的 
: 最 小 半径 信息 球 
0 一 >X (13-8) 

ee pgn 

Le ‘Pm’ d 








对 于 信道 19, polr) VIRB, 它 的 行 等 于 信 源 的 可 能 分 布 poo WUER, 最 小 最 大 元 余 
E R* 等 于 该 信道 的 容量 , 且 达 到 信道 容量 时 的 输入 分 布 导出 该 信道 的 输出 分 布 . 即 是 此 时 的 最 
优 码 分 布 。 信 道 容量 为 


C= max! (ð; X)= max > (0) pal )log me (13-9) 





其 中 
qalx) = >) w(8) polz) (13-10) 
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下 面 的 定理 体现 了 R “和 C 的 等 价 性 : 
定理 13.1.1 (Gallager[229], Ryabko[450]) 设 信道 p(x10) 的 各 行 分 别 为 pis Poss bms 
则 它 的 容量 为 
C=R = min maxD( po | q) (13-11) 
其 中 , 达到 式 (13-11) 中 最 小 值 时 的 分 布 g 为 达到 信道 容量 时 的 输入 分 布 x* (0) 所 导出 的 输出 分 
布 q* (z): 


q* (x) = gx (x) = D)m* (0) p(x) (13-12) 
证 明 : 设 r(6) 为 0E 11,2,…,m| 上 的 输入 分 布 ， 导出 的 输出 分 布 为 qr: 
(qx); = Drt (13-13) 
其 中 p; = po(x),0=i,x= jo 对 输出 端 上 的 任意 分 布 g， 有 
1,(0;X) = Di npe rh- (13-14) 
= 2 Dp l an) (13-15) 
= = Drp fH QT (13-16) 
= X nps 他 + X apyl ta- (13-17) 
= X mpal Ti + È Canle (By (13-18) 
= È nipile -= Dlg, ll g) (13-19) 
= pw 上 eg) -Dla | q) (13-20) 
< DaDa lla) (13-21) 
其 中 , 对 于 所 有 g， 当 且 仅 当 g = gx 等 号 成 立 。 于 是 , 对 任意 的 4， 
2 nD(pil a) > Wade; Il ax) (13-22) 
所 以 ， l 
1,0;X) = min >) x D2; l g) . (13-23) 


BY q= q, 时 达到 最 小 值 。 因 此 ， 与 转移 矩阵 的 所 有 行 的 平均 距离 达到 最 小 化 时 的 输出 分 布 为 由 
信道 导出 的 输出 分 布 ( 引 理 10.8.1)。 
此 时 , 信道 容量 可 写 为 
C = maxl,(0;X) (13-24) 
= = max min Y) D (p lg) (13-25) 


现在 , 我 们 需要 应 用 博弈 论 中 的 一 个 基本 定理 , BE, 对 于 任意 的 连续 函数 f(x, y) cer, yey, 
如 果 fry AF z 为 凸 而 关于 y AY, BY, YARAR, 那么 


min max f(x,y) = max min f(x, y) (13-26) 


最 小 最 大 定理 的 证 明 可 参见 [305,392]。 
根据 相对 箭 的 凸 性 (定理 2.7.2)， 2 xD(p; lg) 关于 g 为 凸 , 而 关于 x 为 站, 因此 
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C = max min >) x D(P: lq) (13-27) 

= = minmax Ja D( p, laq) (13-28) 

= = min maxD( p; ll g) (13-29) 

其 中 最 后 一 个 等 式 的 成 立 , 是 在 式 (13-28) 中 , 将 全 部 权重 赋 给 下 标 i 并 最 大 化 D(z Ia), 从 
而 获得 最 大 值 。 因 此 , 也 可 以 得 到 g* = g* 。 至 此 , 完成 定理 的 证 明 。 -o 


由 此 , 从 6 到 X 的 信道 的 信道 容量 为 信 源 编码 中 的 最 小 最 大 期 望 元 余 度 。 

例 13.1.1 ZEX =]|1,2,3), 6 只 取 1 和 2 这 两 个 值 , 并 且 相 应 的 分 布 为 ti=(1- aya,0) 
和 思 =(0,a,1- wx)。 现 在 欲 编码 来 自 超 的 一 个 字符 序列 ,但 并 不 知道 分 布 是 pi 还 是 p LE 
的 讨论 表明 , 最 坏 ; WE FRR RES pi 和 p MBAR) HAE, BS 


分 布 的 中 点 。 若 使 用 分 布 9 = ioe T a, ,我 们 得 到 的 元 余 度 为 





D(p, Il qg)=D(p ll D-0- oegi oe! +0=1-a (13-30) 


转移 概率 矩阵 的 行 等 于 pi 和 p 的 信道 等 价 于 擦 除 信道 ( 见 7.1.5 节 ), 且 容 易 计 算出 该 信道 的 容 
量 为 (1 - a), 并 当 输 入 端 是 均匀 分 布 时 达到 该 容量 。 对 于 达到 容量 的 输入 分 布 , 相应 的 输出 分 布 


a H a, E | ( 即 等 同 于 上 述 分 布 9)。 因 此 ,如果 并 不 知道 这 类 信 源 的 分 布 ， 编码 时 就 使 用 
q, 而 非 pi 或 pr, 同时 付出 的 代价 为 1- a 比特 / 信 源 字符 , 它 在 理想 的 炉 界 之 上 。 
13.2 二 元 序列 的 通用 编码 


现在 考虑 编码 二 元 信 源 rE 10,1)" 的 一 个 重要 的 特殊 情形 。 对 于 zi, x2,… ,zn 的 概率 分 
布 , 我 们 不 做 任何 假定 。 


先 来 估计 人 ) 的 大 小 。 依据 Wozencraft 和 Reiffen[567]( 见 引 理 17.5.1 的 证 明 ), XF k #0 


或 n, 有 
N son<( Jorma (13.31) 


首先 , 我 们 给 出 一 个 脱 机 算法 以 描述 序列 : 计算 出 序列 中 1 的 个 数 , 并且 当 已 经 看 到 整个 序 
列 后 , 发 送 序列 的 两 阶段 描述 。 第 一 阶段 为 序列 中 1 的 数目 ， 即 E = >) zxi( 使 用 [log(n + 1) 1H 





特 ), 第 二 阶段 是 在 所 有 具有 个 的 序列 中 这 个 序列 的 下 标 | 使 用 | iog( ) | 比特 )。 由 此 ,该 两 
阶段 描述 需要 的 总 长 度 为 
1(z)<log(z+1) riog( "| +2 (13-32) 


<logn + n(#) -十 logn - 5 loa( Ain Bh) ({n—k)) 43 (13-33) 


=nH(4 )+ Logn- log( x kn-k 


于 是 ,描述 序 列 的 代价 大 约 等 于 二 logn 比特 , SAEF (E ) 的 伯 努 利 分 布 的 香农 码 的 最 优 代价 


HE, 上 述 描述 的 代价 更 大 。 当 =0 或 &=n 时 , 最 后 一 项 无 界 , 因此 , 该 情形 时 , 上 述 给 出 的 
界 无 意义 ( 当 =0 或 k=n 时 , RE H k/n)=0, 但 实际 的 描述 长 度 log(n +1) 比 特 。) 





)+3 (13-34) 


> 
Ww 
N 





> 
> 
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这 样 的 计数 方法 需要 压缩 器 耐心 等 待 到 看 完整 个 序列 。 下 面 我 们 给 出 另 一 种 方法 , 编码 时 
使 用 总 体 上 达到 上 述 相同 结果 的 混合 分 布 。 选 取 编码 分 布 g(x ,zx2，…, 2, ) = 2) H 
X1522,° ,Tn 上 所 有 Bernoulli(9) 分 布 的 均匀 混合 。 然 后 , 我 们 分 析 使 用 该 分 布 的 码 的 性 能 , 并 
说 明 对 于 任意 的 输入 序列 , 这 些 码 都 表现 得 相当 好 。 

若 假定 伯 努 利 分 布 的 参数 6 服从 [0,1] 上 的 均匀 分 布 , 构造 出 这 个 分 布 。 对 于 Bernoulli( 9) 分 
布 , 具有 个 1 的 序列 21,022,752, 的 概率 为 (1- 9)”“。 因 此 , 序列 的 混合 概率 为 


plaiszrss2,) = | MCL ~ 6) 440. A Aln,k) (13-35) 
利用 分 部 积分 , 令 u=(1- 6)" Al do= 0*d0, RATA 











[oa ~ 9)"tdg = | 1 gr- oya] 
0 ~ [k+1 0 
十 zaf ot — 0)"*-1d0 (13-36) 

或 Aln, k)= H ÉA(n,k +1) (13-37) 
又 由 于 A(n,n) = | odo = 二 上 1， 通过 递归 容易 证 明 

plaitz ty) = ACn, k)= eG (13-38) 

(7) 
由 此 , 混合 分 布 的 码 字 长 度 满足 
1 n 
| et eet D+ ioe) + (13-39) 


这 与 上 述 的 两 阶段 描述 相 比 , 长 度 相差 在 1 比特 之 内 。 因 此 , 对 于 所 有 序列 cl, x2,… ,zs 的 码 字 
KE, 有 一 个 类 似 的 界 估计 


Ilarratza) <n È) + Flogn Flog x 人 in kD) +2 (13-40) 





若 实际 信 源 服从 Bemoulli( £ ), 则 最 优 码 的 码 长 需要 n/n), 但 对 于 没有 任何 假设 的 信 源 分 


布 而 言 ， 上 述 混合 分 布 达 到 的 码 字 长 度 与 之 相 比 超出 KRME ogn 比特 之 间 。 


对 于 给 定 zi x+2，,… ,zx 中 的 前 面 字符 下 ,下 一 个 字符 出 现 的 条 件 概率 通过 该 混合 分 布 可 以 
获得 一 个 非常 好 的 表达 。 设 k H art oan 的 前 i 个 字符 中 1 的 个 数 。 利 用 式 (13-38), 我 们 
有 


ey (13-41) 
g(x 


FEJEI se 


q(xzit1=1|x’)= 








1 (k;+1)! (n—k;)! ` ki! Gk)! 
sp2 (Gy ETD (13-43) 
-全 (13-44) 


it+2 
此 即 在 给 定 9 的 均匀 先 验 下 1 的 贝 叶 斯 后 验 概率 , 称 为 下 一 个 字符 出 现 概 率 的 拉 普 拉 斯 估计 。 
对 于 算术 编码 , 可 以 将 此 后 验 概率 作为 下 一 个 字符 出 现 的 概率 , 并 且 码 字 长 度 在 有 限 精 度 内 以 循 
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序 渐 进 达 到 log es) 这 在 水 平方 向 上 是 一 个 无 限制 的 结果 , 整个 过 程 并 不 依赖 序列 的 长 度 。 


需要 注意 的 问题 是 , 4k-ORk-n WM, 均匀 混合 方法 或 两 阶段 方法 得 到 的 界 不 再 成 立 。 
仅 对 于 均匀 界 , 能 够 给 予 的 额外 元 余 度 为 logn, 对 此 ,可 以 利用 式 (11-40) 中 的 界 获得 。 现 在 的 
问题 是 , 4k=OM kan, 不 可 能 匹配 足够 的 概率 给 序列 。 若 不 使 用 9 上 的 均匀 分 布 , 而 用 


Dirichlet( 去 , 亏 ) 分 布 (也 称 为 Beta( J,A JAM), 则 序列 zl, zz， ，zv 的 概率 为 








n = 1 k n-k 1 
q4(a") [o a-o (13-45) 

可 以 证 明 , 对 于 任意 "E 10,11", 该 分 布 达 到 的 描述 长 度 为 
log 一 <H(k/n) + Logn + log $ (13-46) 


dia) 
它 达 到 的 是 关于 通用 混合 码 元 余 度 的 均匀 界 。 如 均匀 先 验 情形 , 可 以 计算 出 当 已 知 前 面 观察 结 
果 时 , 下 一 字符 的 条 件 分 布 , 为 
qi(ziti=1|7)= 7 (13-47) 
在 算术 编码 中 , 利用 此 结果 可 以 提供 一 个 在 线 算法 来 编码 序列 。16.7 节 在 分 析 万 能 投资 组 合 中 ， 
我 们 将 更 详细 地 分 析 混 合算 法 的 性 能 。 


13.3 算术 编码 


对 于 编码 分 布 已 知 的 随机 变量 ,只 需 一 个 字符 接 一 个 字符 地 进行 , 那么 第 5 章 中 叙述 的 赫 夫 
曼 编 码 是 最 优 的 。 尽 管 如 此 , 赫 夫 曼 编 码 受 到 码 长 必须 是 整数 的 限制 , 在 编码 的 有 效 性 方面 存在 
多 达 1 比特 /字符 的 损失 。 若 通过 对 输入 字符 进行 分 组 , 可 以 降低 这 样 的 损失 一 一 然而 , 这 种 方 
法 的 复杂 度 将 随 分 组 长 度 以 指数 增加 。 下 面 叙 述 一 种 不 会 产生 这 种 无 效 性 的 编码 方法 。 在 算术 
编码 中 , 不 使 用 比特 序列 表示 一 个 字符 , 而 用 单位 区 间 的 子 区 间 来 表示 字符 。 

字符 序列 的 编码 是 一 个 区 间 , 它 的 长 度 随 着 增加 更 多 的 字符 到 序列 中 而 减少 。 这 个 性 质 启 
发 我 们 给 出 一 个 增 量 式 编码 方案 (扩展 序列 的 编码 容易 由 初始 序列 的 编码 得 到 ), 并 且 码 字 长 度 
不 必 限 制 为 整数 。 提 出 算术 编码 的 动机 是 基于 Shannon-Fano-Elias 编码 (5.9 节 ) 以 及 以 下 的 引 理 : 

引 理 13.3.1 A Y 为 服从 连续 概率 分 布 函数 下 (y) 的 随机 变量 ，U=FCY), 即 U 是 由 Y 的 
dpi BHR YAAA, BA 口服 从 [0,1] 上 的 均匀 分 布 。 

证 明 ; 因 F(y)E[0,1], 则 UU 的 取 值 范围 为 [0,1]。 同 样 , 对 于 w€E10,1], 有 


Fylu)=Pr(USu) (13-48) 

=Pr(F(Y)<u) (13-49) 

=Pr(Y<F7!'(u)) (13-50) 

=F(F (u)) (13-51) 

=u (13-52) 

由 此 说 明 , U 服从 10,1] 上 的 均匀 分 布 。 口 


设 有 限 字 母 表 -0,1,2,…,m，, 考虑 来 自 该 字母 表 的 无 限 随机 变量 序列 Xi,X2,…。 对 于 来 

自 该 字母 表 的 任意 序列 zl, zz，…， 将 0. 放置 在 该 序列 的 前 面 , 并 把 它 看 作 0 与 1 之 间 的 一 个 实 
数 (m +1 BER) BEX 为 实 值 随 机 变量 X=0.XIX2…。 那 么 ,X 的 分 布 函数 如 下 : 

Fxy(x2) =Pri XX =0.2127""'} (13-53) 


nN 
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= Pr{0. X Xz <0.ztz2 | (13-54) 
=Pr| X <a} +Pri Xi = zi, Xr + (13-55) 
现在 , 设 U= Fx(X) = Fx (0. XX2) =0. FiF,…。 如 果 无 限 序列 集 X 上 的 分 布 没有 原子 
(atom), 则 由 以 上 引 理 可 知 ，U 服从 [0,1] 上 的 均匀 分 布 , 所 以 ，U 的 二 进 制 展 开 式 中 的 比特 序 


BFF, ABSA Bernoulli( £ )( 即 服从 {0,11 上 的 独立 均匀 分 布 )。 所 以 , 这 些 比特 不 能 再 被 压缩 
从 而 成 为 序列 0. XiX2… 的 压缩 表示 。 对 于 伯 努 利 或 马尔 可 夫 模型 ， 容易 计 算出 累积 分 布 函数 ， 
见 下 例 说 明 。 
例 13.3.1 设 Xi,X2，…X。 服从 Bernoulli(p), 则 序列 x” = 110101 映射 成 
F(z") =Pr(X,<1) + Pr(X, =1,X,<1) 

+Pr(X,=1,X,=1,X3<0) 

+ Pr(X,=1,X)=1,X3;=0,X,<1) 

+Pr(X,=1,X)=1,X3=0,X,=1,X5<0) 


+Pr(X,=1, X= 1, X3=0, Xs 二 1, X5=0, Xs<1) (13-56) 
=q+ pat p?:0+ p’q:q+ p’qp:0+ papaq (13-57) 
=q+ pg + p’ +t pd? (13-58) 
注意 到 ,上面 的 每 一 项 均 容 易 从 前 面 各 项 计算 得 到 。 一 般 地 ,对 任意 二 元 过 程 {X;}， 
F(z") = Dpat 10) x, (13-59) 


由 此 ， 概率 变换 实际 是 从 无 限 信 源 序列 到 不 可 压缩 无 限 二 元 序列 的 一 一 个 可 道上 映射 。 下 面 考 
虑 在 有 限 序列 上 这 种 变换 所 能 达到 的 压缩 。 设 Xi,X;，…,X, 是 长 度 为 n 的 二 元 随机 变量 序列 ， 
X11 279° 为 特定 的 结果 。 可 以 将 该 序列 视 为 区 间 [0. eir ,000…,0. zix x11110), 或 


等 价 地 视 为 区 间 | 0. rizr 0 ztzz…za+( 立 ) )。 实 际 上 , 这 是 起 始 于 0. x1z2…zs 的 无 限 序 


列 集 。 经 概率 变换 后 , 该 区 间 映 射 成 另 一 个 区 间 ，| Fy(0. ziz2…z,), Fy(0.212~-2,+(5)')), 


其 长 度 等 于 Pr(ziyzz…zr)， 它 为 所 有 起 始 于 0. tix 2, 的 无 限 序列 的 概率 之 和 。 又 经 概率 逆 
变换 后 , 在 这 个 区 间 内 的 任意 实数 u 映射 为 起 始 于 xi ,x2,… ,zz, 的 序列 , 因而 在 给 定 u Mn F, 
可 以 重 构 出 zi, zx2,…, £o BY MAH Shannon-Fano-Elias 编码 方案 允许 构造 一 个 长 度 为 


og Gaye) +2 比 特 的 无 前 级 码 ,因而 对 于 序列 zl, za，,…, zx， 有 可 能 获得 具有 该 ZK 


、 1 a A 
的 编码 。 请 注意 ， log plzz) x 在 理想 情形 下 的 码 字 长 度 。 


在 处 理 服 从 上 述 累积 分 布 函数 的 序列 进行 编码 时 , 假定 计算 具有 任意 的 精度 。 而 实践 中 , 我 
们 不 得 不 以 有 限 的 精度 执行 所 有 的 数 , 因此 要 描述 该 执行 环境 。 关键 在 于 考虑 的 是 单位 区 间 中 
的 子 区 间 而 不 是 累积 分 布 函数 的 无 限 精度 点 。 任 意 一 个 有 限 长 字符 序列 都 对 应 于 单位 区 间 的 一 
个 子 区 间 。 算 术 编码 算法 的 目标 就 是 将 一 个 随机 变量 序列 表示 成 [0,1] 中 的 某 个 子 区 间 。 随 着 算 
法 观察 到 的 输入 字符 变 多 , 对 应 于 输入 序列 的 子 区 间 长 度 变 小 。 当 子 区 间 的 顶端 与 底 端 越 来 越 
接近 时 , 两 个 端点 的 二 进 制 表示 的 前 几 个 比特 开始 一 致 , 这 些 相同 的 前 几 个 比特 也 将 是 最 终 输出 
序列 对 应 的 前 几 个 比特 。 为 了 高 效 地 计算 以 及 刻画 往 下 的 子 区 间 , 使 得 全 部 计算 能 够 在 给 定 的 
有 限 精 度 限制 下 实现 , 应 该 避免 带 着 这 些 相同 的 首位 往 下 传 。 为 此 , 子 区 间 两 端点 的 二 进 制 表示 
的 首位 一 旦 相同 , 立即 清理 并 输出 , 然后 对 剩余 的 比特 再 进行 计算 。 这 里 , 我们 不 再 详细 讨论 








通用 信 源 编码 251 





(在 算法 和 性 能 方面 叙述 比较 好 的 文章 参看 Bell $[41]). 

例 13.3.2 (三 元 输入 字母 表 的 算术 编码 ) ”考虑 三 元 字母 表 | A ,B,Ci 的 一 个 随机 变量 X, 假 
定 概率 分 别 为 0.4,0.4 和 0.2。 设 序列 编码 成 ACAA。 于 是 , F,(-)=(0,0.4,0.8)5 F, = (0.4, 
0.8,1.0)。 起 初 , 输入 序列 为 空 , 相应 的 区 间 为 [0,1)。 第 一 个 字符 输入 后 面 的 累积 分 布 函数 如 
图 13-2 所 示 。 第 一 个 字符 A 出 现时 , 容易 计算 出 算法 中 的 区 间 为 [0,0.4); 输入 第 二 个 字符 C 
后 , 区 间 变 成 [0.32,0.4)( 图 13-3); 输入 第 三 个 字符 A 时 , 区 间 为 [0.32,0.352); 而 当 输 入 第 四 
个 字符 A 后 , 区 间 变 成 [0.32,0.3328)。 由 于 序列 发 生 的 概率 为 0.0128, 对 于 编码 由 Shannon- 
FanoEliass 码 所 得 到 的 区 间 序 列 的 中 点 (0.3264, 二 进 制 展开 为 0.010100111), 我 们 使 用 
log (1/0.0128) +2( 即 9 比特 )。 

F(x") 
F(x") 
1.0 


0.8 


A B C x AA AB AC BA BB BC CA CB CC x" 
图 13-2 ”第 一 个 字符 出 现 后 的 累积 分 布 函数 图 13-3 第 三 个 字符 出 现 后 的 累积 分 布 函 数 


总 之 , 给 定 任意 长 度 n 和 概率 密度 函数 9 ( zi, za，…, n), 算术 编码 程序 能 够 以 长 度 
log -zz +2 比 特 编码 序列 zl,z2,…,z 进行 编码 。 如 果 信 源 为 i.i.d.， 并 假定 分 布 g 


等 于 数据 的 真实 分 布 p, 这 个 程序 能 达到 的 平均 分 组 长 度 与 炉 相 比 超出 的 部 分 在 2 比特 之 内 。 尽 
管 对 固定 的 分 组 长 度 , 此 程序 不 一 定 是 最 优 的 (针对 分 布设 计 的 赫 夫 曼 码 可 能 会 有 较 短 的 平均 码 
K), 但 这 个 程序 是 增 量 式 的 ,而 且 对 任意 分 组 长 度 都 适用 。 


13.4 Lempel-Ziv 编码 


在 13.3 节 讨 论 了 算术 编码 的 基本 思想 , 并 在 编码 来 自 未 知 分 布 的 序列 时 , 对 于 最 坏 情形 下 
宛 余 度 给 出 了 一 些 结论 。 下 面 讨论 有 关 信 源 编码 的 一 类 非常 流行 的 技术 , 它们 是 通用 最 优 的 ( 即 
对 于 任意 平稳 遍历 信 源 , 渐 近 压缩 率 接近 信 源 的 箭 率 )， 而 且 容 易 实现 。 这 类 算法 称 为 LempeLZiv 
算法 , 以 两 篇 开创 性 论文 [603, 604] 的 作者 命名 , 在 这 两 篇 文章 中 , 作者 提出 了 英 定 这 类 算法 的 
两 个 基本 算法 。 这 些 算 法 也 称 为 自 适应 字典 式 压缩 算法 。 

使 用 字典 式 数据 压缩 的 概念 可 以 追溯 到 电报 的 发 明 。 在 那个 时 候 , 公司 的 日 常 通信 是 按 所 
用 字符 数 计 费 , 许多 大 型 公司 为 常用 词组 编制 码 敌 , 使 用 相应 的 码 字 进行 电报 通信 。 另 一 个 例子 
是 流行 于 India 的 问候 语 电报 ， 有 一 个 标准 的 问候 语 集合 , 例如 “25; 圣诞 节 快 乐 ”和 “26: 愿 新 婚 
夫妇 沐浴 在 上 帝 最 美好 的 祝福 中 ”。 当 人 们 希望 发 送 问候 时 ,只 需 确 定 指定 的 数字 ,由 此 在 目的 
地 生成 实际 的 问候 语 。 

基于 自 适应 字典 式 方案 的 思想 直到 Ziv 和 Lempel 于 1977 年 和 1978 年 发 表 文 章 后 才 被 人 们 
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广泛 采用 。 这 两 篇 文章 描述 了 算法 的 两 个 不 同 版 本 。 我 们 称 为 LZ77 或 滑动 窗 Lempel-Ziv 算法 与 
LZ78 或 树 结构 Lempel-Ziv 算法 。( 有 时 ,它们 各 自分 别 简称 为 LZ 与 LZ2。) 

下 面 首先 叙述 两 种 情形 各 自 的 基本 算法 , 并 给 出 一 些 简单 的 变形 。 过 后 , 我 们 将 证 明 算 法 的 
BRE, 并 在 最 后 讨论 一 些 实际 的 问题 。Lempel-Ziv 算法 的 关键 思想 是 将 字符 串 解析 成 一 个 个 词 
组 , 并 利用 指针 替换 词组 ,而 这 些 指针 指向 过 去 出 现 相同 字 符 串 的 位 置 。 两 种 算法 的 区 别 在 于 各 
算法 允许 的 可 能 匹配 位 置 (和 匹配 长 度 ) 集 合 之 间 的 差别 。 

13.4.1 带 滑动 窗口 的 Lempel-Ziv 算法 

在 1977 年 的 文章 中 提出 的 算法 , 其 主要 思想 是 在 一 个 过 去 字符 窗口 的 任何 地 方 通过 查找 最 
长 匹配 进行 字符 串 编 码 ， 同 时 利用 指向 窗 中 匹配 位 置 和 匹配 长 度 的 指针 表示 字符 串 。 这 个 基本 
算法 有 着 许多 形式 的 变种 , 我 们 只 描述 其 中 由 Storer 和 Szymanski[507] 给 出 的 一 种 。 

假定 有 限 字 母 表 的 字符 串 zi , zz,… 需 要 被 压缩 。 字 符 串 x1, 22, £, 的 解析 (parsing)S 是 
将 该 字符 串 划 分 成 若干 词组 , 用 逗号 隔 开 。 设 W 为 窗口 的 长 度 。 此 时 算法 描述 如 下 : 假定 已 经 将 
字符 串 压缩 到 时 刻 i 一 1, 然后 , 为 了 找到 下 一 个 词组 , 先 计算 最 大 的 ,使 得 对 某 个 j, i 一 1 一 WS 
j 志 i 一 1, KEJ k HERT z 的 字符 串 等 于 起 始 于 x; 的 字符 串 ( 长 度 为 上 )( 即 对 任意 的 0 入 <， 
有 tra). FR, 下 一 个 词组 的 长 度 为 有 ( 即 x;… zi+4-1), 且 表 示 为 二 元 对 (P,L), HP 
为 匹配 的 起 始 位 置 , 工 为 匹配 的 长 度 。 如 果 在 窗口 中 没有 找到 匹配 , 则 下 一 个 字符 将 无 压缩 地 被 
发 送 。 为 区 分 这 两 种 情形 , ， 需 要 一 个 标识 位 , 因此 , 词组 有 两 种 类 型 : (F,P,L)R(F,C), 其 中 
C 表示 未 压缩 的 字符 。 . 

注意 , (指针 , 长 度 ) 对 的 目标 表示 可 能 延伸 超出 窗口 ， 从 而 导致 与 新 的 词组 重合 。 在 理论 
E, 这 样 的 匹配 可 以 任意 长 。 而 在 实际 中 , 最 大 词组 长 度 限制 为 不 能 超过 某 个 参数 。 

例如 , 若 W=4, 字符 串 为 ABBABBABBBAABABA, 起 初 窗口 为 空 , 该 字符 串 可 以 解析 如 下 : 
A,B,B,ABBABB,BA,A,BA,BA, 用 “指针 ?序列 表示 就 是 : (0,A)，(0,B)，(1,1,1)，(1,3,6)， 
(1,4,2), (1,1,1), (1,3,2), (1,2,2) ,其 中 当 没 有 匹配 时 标识 位 为 0, 有 匹配 时 标识 位 为 1, 并 且 
匹配 的 位 置 是 从 窗口 的 末端 向 后 开始 测量 的 。( 在 此 例 中 , 使 用 二 元 对 (P,L ) 表 示 窗 口内 的 每 个 
匹配 。 尽 管 如 此 , 或 许 将 短 匹配 表示 为 未 压缩 字符 显得 更 加 有 效 。 细 节 见 习题 13.8。) 

这 个 算法 好 比 使 用 了 一 个 字典 , 它 由 窗 中 字符 串 的 所 有 子 串 与 所 有 单字 符 构成 。 算 法 是 要 
找到 字典 内 的 最 长 匹配 , 并 且 分 配 一 个 指针 给 这 个 匹配 。 此 后 , 我 们 会 证 明 L277 的 这 个 版 本 的 
简单 变形 是 渐 近 最 优 的 。 大 多 数 L277 的 实际 实现 , 例如 gzip 和 pkzip, 都 是 基于 L277 这 个 版 本 。 
13.4.2 树 结 构 Lempel-Ziv 算法 

Ziv 和 Lempel 在 1978 年 的 文章 中 提出 的 算法 是 将 字符 捉 分 解 成 一 个 个 词组 , 其 中 每 个 词组 
均 是 此 前 未 曾 出 现 过 的 最 短 词组 。 该 算法 可 以 视 为 构建 了 一 个 具有 树 形式 的 字典 ,其 中 的 节点 
对 应 于 目前 已 经 出 现 的 词组 。 该 算法 特别 容易 实现 , 由 于 它 的 快速 与 高 效 , 它 作 为 计算 机 中 文件 
压缩 的 早期 标准 算法 之 一 , 非常 流行 。 在 高 速 调制 解 调 器 中 的 数据 压缩 也 采用 该 算法 。 

将 信 源 序列 顺序 地 分 解 成 直到 目前 还 未 出 现 过 的 最 短 的 字符 串 。 例 如 , 假设 一 个 字符 串 为 
ABBABBABBBAABABAA---, 将 其 分 解 为 A,B,BA,BB,AB,BBA,ABA,BAA…。 在 每 个 逗号 后 , 沿 
着 输入 序列 观察 , 直到 发 现 此 前 还 未 被 划分 出 的 最 短 字符 串 为 止 。 由 于 这 个 字符 串 是 最 短 的 , € 
的 所 有 前 组 均 在 前 面 出 现 过 。( 因 此 , 可 以 构建 出 这 些 词 组 的 一 棵 树 。) 特 别 地 , 由 此 字符 串 的 最 
后 一 位 除外 的 所 有 位 构成 的 字符 串 必 在 前 面 已 经 出 现 。 通 过 给 出 前 级 的 位 置 和 最 后 一 个 字符 的 
值 确定 这 个 词组 的 编码 。 因 此 ,上述 字符 串 可 以 表示 为 (0,A), (0,B), (2,A), (2,B), (1,B)， 
(4,A), (5,A), (3,A),… 

在 每 个 词组 中 , 发 送 一 个 未 压缩 字符 会 降低 有 效 性 。 将 延长 字符 (当前 词组 的 最 后 一 个 字 
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符 ) 考 虑 为 下 一 个 词组 的 一 部 分 , 可 以 解决 该 问题 。 这 个 变异 是 由 Weich[ 554] 提 出 , 已 经 是 许多 
LZ78 实际 实现 压缩 的 基础 , 例如 Unix 下 的 , 在 调制 解 调 器 中 以 及 GIF 格式 的 图 形 文件 中 的 压缩 


(compress) 。 
13.5 Lempel-Ziv 算法 的 最 优 性 


13.5.1 带 滑 动 窗口 的 Lempel-Ziv 算法 

在 Ziv 和 Lempel 的 最 初 文章 [603] 中 , 作者 提出 了 基本 的 LZ77 算法 , 并 证 明 对 于 任意 字符 
BB, 这 个 算法 与 任何 有 限 状态 压缩 器 相 比 都 能 压缩 的 一 样 好 。 尽 管 如 此 , 他 们 并 没有 证 明 该 算法 
所 能 达到 的 渐 近 最 优 性 ( 即 对 于 遍历 信 源 ,压缩 率 收敛 于 箭 ) Wyner 和 Ziv[591j 给 出 了 这 个 结论 
的 证 明 。 

该 证 明 依赖 于 Kac 发 现 的 一 个 简单 引 理 , 等 待 看 到 一 个 特定 字符 所 需 时 间 的 平均 长 度 为 该 
字符 概率 的 倒数 。 于 是 , 我 们 希望 看 到 窗口 范围 内 的 高 概率 字符 串 , 并 有 效 地 编码 这 些 字 符 串 。 
没有 在 窗口 内 找到 的 字符 串 概 率 很 小 , 因而 在 渐 近 意义 上 , 它们 不 会 影响 可 达 压 缩 。 

下 面 我 们 并 不 证 明 LZ77 实际 版 本 的 最 优 性 , 而 是 先 来 说 明 该 算法 的 一 个 不 同形 式 的 简易 证 
明 , 它 虽然 不 实用 , 但 能 抓 住 一 些 基 本 思想 。 这 个 算法 假定 发 送 器 和 接收 器 均 能 访问 字符 串 的 无 
限 过 去 , 同时 利用 指向 在 过 去 出 现 字符 串 的 最 后 时 刻 表 示 长 度 为 ”的 字符 串 。 

假设 一 个 平稳 遍历 过 程 ， 其 时 间 从 - cc 到 co ,编码 器 和 译 码 器 均 知 道 序 列 的 无 限 过 去 …， 
X_，,X_i。 为 了 编码 Xo,X1,…,X,_1( 长 度 为 n 的 分 组 ), 在 过 去 我 们 找到 出 现 这 ”个 字符 的 最 
后 时 刻 。 设 

R, (Xo, Xi1,,X, -1)= maxi 7 <0: (X-; X jer X jn) 
=(Xo,° Fan (13-60) 
为 了 表示 Xo,X!1,…,X, -1, RK R, 发送 给 接收 器 ， 然后 它 在 过 去 反 向 观测 R,, 从 而 恢复 Xo, 
XX1,…, 义 ,_1。 因 此 , 编码 的 成 本 是 表示 R, 的 成 本 。 下 面 将 证 明 这 个 成 本 近似 于 logR,, 而 且 渐 


近 地 有 工 ElogR, 一 互 (起 )， 由 此 证 明 上 述 算法 的 渐 近 最 优 性 。 

先 来 证 明 以 下 引 理 。 

引 理 13.5.1 存在 整数 的 无 前 级 码 ,使 整数 的 码 字 长 度 为 logk +2loglogk + O(1)。 

证 明 : 如 果 已 知 & 委 mm ,可 以 用 logm 比特 对 编码 。 尽 管 如 此 , 由 于 并 不 知道 的 上 界 , 需 
要 将 的 编码 长 度 告诉 接收 器 ( 即 , 需要 确定 logk)。 考 虑 如 下 整数 的 编码 ; 首先 用 一 进 制 表示 
[logk 1, 紧 接着 是 的 二 进 制 表示 


Ci(k)=00:01 zzz (13-61) 
Figlio ”天 的 二 进 制 表示 


容易 看 出 , 这 个 表示 的 长 度 为 2「logk]+1 志 2logk +3。 由 于 使 用 低 效 的 一 元 码 发 送 logk, 使 得 长 
度 远 超出 我 们 所 期 待 的 。 虽 然 如 此 , 若 使 用 C1 表示 logk, 就 容易 看 到 ， 这 个 表示 的 长 度 不 超过 
logk + 2loglogk +4, 引 理 得 证 。 类 似 的 方法 在 定理 14.2.3 之 后 也 有 所 讨论 。 口 

Kac 引 理 是 LZ77 最 优 性 的 证 明 过 程 中 的 关键 结果 , 它 表 明 对 任何 平稳 遍历 过 程 , 一 个 字符 
的 平均 重复 出 现 次 数 与 该 字符 的 概率 相关 。 例 如 , 若 Xi,X,,…,X A iid AE, 我 们 要 问 , 在 
Xi=a 的 条 件 下 , 再 次 观察 到 字符 a 的 期 望 等 待 时 间 为 多 少 ? 对 此 情形 , 等 待 时 间 服 从 参数 p = 
p(Xo=a) 的 几何 分 布 , 从 而 期 望 等 待 时 间 为 1/p(Xo=a)。 让 人 有 点 惊讶 的 是 ， 当 该 过 程 不 满 
EATE, 仅 为 平稳 和 遍历 时 , 结论 同样 成 立 。 一 个 简单 而 直接 的 理由 是 , 在 长 度 为 ”的 大 样本 
H, 我 们 希望 能 观察 到 a KA np (a) 次 , 这 些 出 现 a 的 结果 之 间 的 平均 距离 为 nA(np(a)) 
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(BN 1/p(a))o 
51 13.5.2(Kac) 设 …,U_,,U_1, Uo, U1,… 为 可 数字 母 表 上 的 平稳 遍历 过 程 。 对 任意 
,有 plu)>0 以 及 对 i=1,2,…, R 
Q,(i) =Pri U_;= u; Uj;Au 对 于 -i<j<0|lUo= wl (13-62) 
( 即 已 知 Uo 二 wu，Q,(i) 是 此 前 出 现 字符 u 的 最 近 时 刻 为 ;的 条 件 概率 。) 从 而 ， 


E(R\(U) | Xo = u) = Dili) = 3 (13-63) 
因此 , 从 0 处 反 向 观察 ， 再 次 观察 到 字符 的 条 件 期 望 等 待 时 间 为 1/p(u)。 
注意 如 下 有 趣 的 结果 , 期 望 再 现时 间 为 
ER,(U)=XSplu)—aa =m (13-64) 


On 
其 中 m 为 字母 表 的 大 小 。 
证 明 ; 设 Uo=w。 对 j=1,2,… 和 =0,1,2,…, 定义 事件 : 
Ag ={U-;=u,U;Au,-j<l<k,U,=u} (13-65) 
事件 4x 表 示 这 样 的 事件 : 在 0 时刻 之 前 而 距 0 时 刻 最 近 的 时 刻 -7 RAST 的 事件 , 在 0 时 刻 
之 后 且 距 0 时 刻 最 近 的 & 最 近 时 刻 过 程 等 于 的 事件 x。 这 些 事件 互 不 相交 , 且 根 据 遍 历 性 可 知 ， 
概率 Pri; Agl=1. Fe, 





1 =PriU; Axl (13-66) 
23) XPA Ag! (13-67) 
= > Pu, = u)Pri U; = u,U,#u,-jcl<kiU,= ul (13-68) 
>> YPU, = = u)Q,( +k) (13-69) 
a w)Q, +k) (13-70) 
= Pr( U, OP RAGew (13-71) 
2 Pr( Uy = w) iQ, (i) (13-72) 


其 中 ，(a) 成 立 是 因为 A ERM, (b) 可 由 Q,(…) 的 定义 得 到 ，(c) 是 由 于 平稳 性 ， (是 在 
和 式 中 , 满足 7+&=i G E i 对。 根据 这 个 等 式 , 立即 可 得 Kac 引 理 。 

推论 Re, X- Xo,X1,，… 为 平稳 遍历 过 程 ，R, (Xo tts Xm-1) 为 式 (13- oven aM 
察 的 重 现时 间 ， 则 


ELR, (Xo XD) (Xon X) = 28 =F (13-73) 
iE: 定义 新 过 程 U; = (X;, Xon  Xien- 1) 是 平稳 遍历 的 ， 从 而 根据 Kac 引 理 可 知 ， 给 定 
Uou, U 的 平均 再 现时 间 为 1/p(u)。 然 后 将 此 转化 为 X 过 程 就 可 证 得 该 推论 。 O 


现在 来 证 明 主要 结果 , 也 就 是 利用 再 现时 间 证 明 简单 形式 的 Lempel-Ziv 算法 的 压缩 率 趋 于 
tH, AEA OR, (XT DRRR XG”), 根据 引 理 13.5.1 可 知 , 这 个 描述 需要 logR, + 2loglogR, + 4 
比特 。 我 们 可 以 证 明 如 下 定理 。 

定理 13.5.1 设 L,(X%-!1)=logR, +2loglogR,+O 〇 (1) 为 上 述 简 单 算法 中 的 X8 ! 的 描述 长 
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度 ， 当 n 一 oo 时 ,有 
LEL, (X7 DHX) (13-74) 


其 中 HAÆATEIX HAE, 
TERA: 我 们 首先 估计 E L, 的 上 下 界 。 下 界 可 以 直接 由 标准 的 信 源 编码 结论 得 到 ( 即 对 任何 
EMR, EL,2nH). HTAR, 我 们 首先 证 明 
_ 4. °” 
lim E logR, SH (13-75) 
然后 估计 L, 表达 式 中 其 他 项 的 界 。 为 证 明 关于 ElogR, 的 不 等 式 , 我 们 把 以 X BEAR 
期 望 展开 , 然后 利用 Jensen FER, 有 


TplogR, = TD p(x) ElloeR, (XY!) | X = 257] (13-76) 
< EY (as MogELR, (XB) | XG = 251) (13-77) 
= we plai log zT (13-78) 
- SHO") | (13-79) 
NHY) (13-80) 

L, 表达 式 中 的 第 二 项 为 loglogR,， 和 希望 证 得 
+E [loglogR, (X8"!)]-+0 (13-81) 

再 次 利用 Jensen 不 等 式 , 可 得 

TEloglogR, <A logE[logR, (X4 1)] (13-82) 
<4 NogH (X57?) (13-83) 
其 中 最 后 一 个 不 等 式 可 由 式 (13-79) 得 到 。 对 任意 s>0, 4n 充分 大 时 , H(X )<n(H +e), 
所 以 loglogR， < 二 logn + 士 log(H+e) 一 0。 定 理 得 证 。 口 


因此 , 通过 编码 过 去 观察 到 的 最 近 时 刻 来 表示 字符 串 , 这 样 的 压缩 方案 是 渐 近 最 优 的 。 显 
R, 由 于 事先 假定 发 送 器 和 接收 器 都 能 访问 序列 的 无 限 过 去 , 其实 这 个 方案 很 不 实用 。 对 更 长 的 


FHS, 人 们 需要 向 后 观察 得 愈 来 愈 远 , 才能 找到 相应 的 匹配 。 例 如 ， SEAS. 字符 串 的 长 


度 为 200 比特 , 平均 需要 在 过 去 向 后 观察 2% 守 10” 比 特 , 才能 找到 一 个 匹配 。 尽 管 这 个 方案 不 
可 行 , 但 算法 表明 匹配 过 去 的 基本 思想 是 渐 近 最 优 的 。 带 有 限 窗口 的 LZ77 实用 版 本 的 最 优 性 证 
明 也 基于 类 似 的 思想 。 我 们 不 再 叙述 其 中 的 细节 , 读者 可 以 参看 [591] 中 的 原始 证 明 。 
13.5.2 $3484) Lempel-Ziv 压缩 的 最 优 性 

考虑 Lempel-Ziv 算法 的 树 结构 形式 , 其 中 输入 序列 解析 成 词组 , 每 个 词组 是 到 目前 为 止 未 出 
现 过 的 最 短 字符 电 。 这 个 算法 的 最 优 性 证 明 不 同 于 L277 的 证 明 , 有 自身 的 特点 ; 证 明 的 关键 是 
讨论 计数 , 表明 如 果 所 有 词组 都 不 相同 , 那么 词组 数目 不 可 能 很 大 , 而 且 任 何 字 符 序列 的 概率 可 
以 由 序列 解析 中 的 不 同 词组 数 的 函数 界定 。 
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13.4.2 节 中 叙述 的 算法 对 字符 串 的 处 理 需 要 两 个 过 程 一 -第 一 个 过 程 为 解析 字符 串 ,， 并 计 
算 解 析 字 符 串 中 的 词组 数 c(n)。 然 后 确定 需要 多 少 比特 ([logc (x)]) 分 配给 算法 中 的 指针 。 在 
第 二 个 过 程 中 , 计算 指针 并 生成 如 上 所 述 的 编码 字符 串 。 通 过 改进 , 可 以 使 算法 在 处 理 字符 串 时 
只 需 一 个 过 程 ， 而 且 能 使 用 更 少 的 比特 匹配 给 初始 指针 。 这 些 修 改 不 会 影响 算法 的 渐 近 有 效 性 。 
其 中 的 一 些 实现 细节 可 以 参看 Welch[ 554] Bell et al.[41]。 

下 面 将 证 明 , 如 Lempel-Ziv 滑动 窗 版 本 一 样 ,这 个 算法 也 渐 近 达到 未 知 的 遍历 信 源 的 精 率 。 
首先 定义 字符 串 的 解析 为 字符 串 的 一 个 分 解 。 

定义 “二 元 字符 串 rar a, 的 解析 指 字 律 昌 的 划分 , 利用 逗号 将 字符 串 隔 开 ， 分解 成 词组 。 
如 果 任 何 两 个 词组 均 不 同 , 就 称 该 解析 为 相 措 解析 (distinct parsing)。 例 如 , 0, 111, 1 是 01111 的 
一 个 相 异 解析 , 而 0, 11, 11 也 是 它 的 解析 , 但 不 相 异 。 

以 上 所 述 的 LZ78 算法 给 出 了 信 源 序列 的 相 异 解析 。 设 c(n) 表 示 长 度 为 n 的 序列 的 L278 解 
析 中 的 词组 个 数 。 当 然 ,c(n) 依 赖 于 序列 X*"。 压 缩 后 序列 (应 用 Lempel-Ziv 算法 所 得 ) 由 cln) 
个 二 元 对 构成 , 每 个 二 元 对 的 第 一 个 分 量 表示 一 个 指针 , 指向 该 词组 前 缀 的 先前 出 现 位 置 , 第 二 
个 分 量 为 词组 的 最 后 一 位 。 每 个 指针 需要 logc (nn) 比 特 , 因此 ,压缩 后 的 序列 总 长 度 为 
c(n) [loge(n) +1] 比 特 。 下 面 证 明 ,对 于 平稳 包 历 序列 Xi, Xa, X, Comet) SD), 
五 (十 )。 证 明基 于 Wyner 和 Ziv[575] 有 关 L278 编码 的 渐 近 最 优 性 的 简单 证 明 。 

在 详细 叙述 证 明之 前 , 先 给 出 证 明 所 需 的 关键 地 方 。 第 一 个 引 理 表明 , 序列 的 相 异 解析 中 的 
词组 数 不 会 超过 n /ogn; 证 明 的 关键 在 于 要 知道 不 会 存在 充分 相 异 的 短 词组 。 另 外 ,这 个 界 对 
序列 的 任何 相 异 解析 都 成 立 , 不 只 对 LZ78 解析 成 立 。 

第 二 个 关键 点 是 利用 相 蜡 词组 数 给 出 序列 概率 的 界 估计 。 为 说 明 此 点 , 考虑 i.i.d. 随机 变量 
序列 X; ,Xs, XX3, Xs， 它们 的 可 能 取 值 为 |A ,B,C,D}, 其 概率 分 别 为 pa» pes pe 和 pp。 现 在 考 
虑 序列 的 概率 P(D,A,B,C)= pppapspc。 由 于 pat pet pet pp=1, 则 当 各 概率 值 相等 时 , 积 
pppapapc 达到 最 大 值 (也 即 , 四 个 相 异 字符 所 成 序列 的 概率 的 最 大 值 为 1/256)。 男 一 方面 , AS 


虑 序列 A,B,A,B, 那么 它 的 概率 当 pa= p=}, pc= pp=0, 序列 A,B,A,B 的 概率 的 最 大 值 


Hk 形 如 A,A,A,A 的 序列 的 概率 可 以 取 到 1。 所 有 这 些 例子 说 明 一 个 基本 观点 一 一 具有 大 
量 相 异 字符 串 ( 或 词组 ) 的 序列 不 可 能 具有 大 的 概率 。Ziv 不 等 式 ( 引 理 13.5.5) 就 是 马尔 可 夫 情 形 
下 这 个 思想 的 推广 , 其 中 相 异 字符 串 即 指 信 源 序列 的 相 异 解析 中 的 词组 。 

由 于 经 解析 后 , 序列 的 描述 长 度 随 clogc 递增 , 含 少量 相 异 词组 的 序列 有 效 地 压缩 , 且 这 样 
的 序列 对 应 于 具有 较 高 概率 的 字符 串 。 另 一 方面 , 具有 大 量 相 异 词组 的 字符 串 不 会 压缩 得 很 好 ; 
而 且 根据 Ziv 不 等 式 可 知 , 这 些 序列 的 概率 不 会 很 大 。 因 此 ，Ziv 不 等 式 使 我 们 将 序列 概率 的 对 
数 与 解析 中 的 词组 数 联系 起 来 , 并 可 由 此 证 明 树 结构 Lempel-Ziv 算法 是 渐 近 最 优 的 。 

下 面 先 证 明 几 个 定理 证 明 过 程 中 需要 的 引 理 。 第 一 个 是 关于 长 度 为 n 的 二 元 序列 的 相 异 解 
析 中 可 能 的 词组 数 的 界 佑 计 。 

引 理 13.5.3 (Lempel 与 Ziv[604]) 二 元 序列 Xi ,X2，…，X， 的 相册 解析 的 词组 数 c(n) 满 足 





c(n)S (13-84) 


nm 
(1 — e,)logn 


其 中 当 nom, e,=min 1, RPR +4 +0, 
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WRA.: 设 
n = 2j2 = (k-1)2**142 (13-85) 
表示 长 度 小 于 或 等 于 & 的 所 有 相 异 字符 串 的 长 度 总 和 。 对 于 长 度 为 n 的 序列 ， 当 所 有 的 词组 都 
尽 可 能 短 时 , 其 相 异 解析 的 词组 数 c 达到 最 大 。 若 n= n;, 则 当 所 有 词组 的 长 度 志 ,这 种 情况 
发 生 , 因此 
Ng 

k-1 

FH nSn<miy, Enant, 其 中 A<(k+1)2**1。 于 是 分 解 成 最 短 词组 的 解析 就 由 长 
E< 的 词组 和 长 度 为 & +1 的 A/(k+1) 个 词组 组 成 。 因 此 





k 
e(n) < D = 2-22 (13-86) 
j=1 











ng A mtA on 
(ME -itki -1 ki (13-87) 
对 于 给 定 的 n, 界定 的 大 小 。 设 mnn M 
nm = (k-1)2**! +252" (13-88) 
所 以 ， 
k<logn (13-89) 
从 而 , 由 式 (13-89) 可 得 
- ngs = RDP tA + 2<(k + 2)2**?<(logn + 2)2**? (13-90) 
所 以 ， 
n 
k + 2>>log ex - (13-91) 
或 对 任意 n24, 有 
k-1 logn — log(logn +2) -3 (13-92) 
_ (, _ log(logn +2) +3 
(4 logn Jlogn (13-93) 
>(1-! (lo n) +3) kogn (13-94) 
ogn 
= (1- PEt) +4 )logn (13-95) 
ogn 
=(1-e, )logn (13-96) 
注意 ，。 =min 1, 8082) +4] 。 联 合式 (13-96) 和 式 (13-87)， 即 可 得 到 引 理 。 口 


logn 
在 关键 定理 的 证 明 中 , REAAAKRAKMH— TBA. 
引 理 13.5.4 设 Z 为 非 负 整数 值 随机 变量 , 其 均值 为 Kw,， 则 精 HRA 


H(Z)<(p+1)log(p +1)- ulogu (13-97) 
证 明 : 此 引 理 可 由 定理 12.1.1 的 结论 直接 得 到 。 这 个 结论 表明 , 在 均值 已 知 条 件 下 , 使 非 
负 整 数值 随机 变量 的 米 达 到 最 大 的 概率 密度 是 几何 分 布 。 O 


BAX} -< 是 概率 密度 为 P( zi, zz,…，, zxr) 的 平稳 遍历 过 程 。( 对 遍历 过 程 的 细致 讨论 见 
16.8 节 。) 对 固定 的 整数 k, 定义 P Hk 阶 马 尔 可 夫 近 似 为 


Q(x ,Tos ZL Tn) A P(x a-n) [| PG; | $) (13-98) 
j=l 


其 中 HALE, Tit1, s Lj), iKj ,初始 状态 zu- 可 部 分 体现 Q: 的 具体 情况 。 由 于 P(X, | 
X BREER, WA 
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1 
- logQ( Xi, X27 Xn | Xa) = 一 4S logP(x, | X74) (13-99) 
j=1 
>- ElogP(X;| X5-4) (13-100) 
= H(X,| X474) (13-101) 


对 于 任意 的 &, 利用 & ART RU EE TT LZ78 码 的 码 率 。 当 kent, 马尔 可 夫 近 
(LASSE HX; | 区 二 ) 收 敛 于 原 随 机 过 程 的 焙 率 , 由 此 可 知 结论 成 立 。 

假定 X. a- = x a-s Ti 被 分 解 成 c 个 相 异 词组 yyz, yo Ry, 表示 第 i 个 词组 的 起 
始 字 符 的 下 标 , 即 y= xz !。 对 每 个 i=1,2,…,c, 定义 So FE, s 表示 在 和 前 的 好 
H k 比特 。 显 然 有 s152. Gy 1)0 

设 ci 表示 长 度 为 1, 前 面 状态 s= s 的 词组 y 的 个 数 , 其 中 =1,2, UR sex, WMA 


Wes =c (13-102) 
和 
Sie, =n (13-103) 


基于 字符 串 的 解析 ， 可 以 得 到 字符 串 概率 的 一 个 上 界 。 这 个 结果 非常 令 人 惊奇 。 现 在 我 们 
来 证 明 。 
引 理 13.5.5(Ziv 不 等 式 ) 对 于 字符 囊 rrr an 的 任何 相册 解析 (特别 是 LZ78 解析 ), 我 们 有 


logQi( x1, 2233n | $1) <- Meploge, (13-104) 

注意 ,上 式 右边 不 依赖 于 Qo “ 

证 明 : 有 
Qe (152908 tsD)=Qe 2 He! $1) (13-105) 
= TTPO: i s) (13-106) 
a a 

logQi (£1223, 2, | 54) = YlogP Cy, | s;) (13-107) 
= S 2 logP(y | s;) (13-108) 
= Ea D gP I si) (13-109) 
< Mesboe( D ao | s2) (13-110) 


其 中 不 等 式 成 立 可 由 Jensen 不 等 式 和 对 数 函数 的 四 性 得 到 。 
由 于 9, RSA, W D POIs) 之 1. 于 是 ， 


logQi (T1, 223, En | SS Sewlog + (13-111) 
ls is 


引 理 得 证 。 口 
下 面 我 们 来 证 明 本 节 的 关键 定理 。 
定理 13.5.2 . 设 1X,| 为 平稳 遍历 过 程 , MRA H) HTRABHRAKEA n HHA, 
设 其 相 异 解析 中 的 词组 数 为 c(n), 则 依 概 率 1, 有 


lim sup" Plone) CH) (13-112) 
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证 明 ; SORIA Ziv 不 等 式 , 可 得 
logQ, (245295° £n | s1) X- > colog 和 (13-113) 
=- cloge ~ c >) “og 和 (13-114) 
Hm, =, 则 由 式 (13-102) 和 式 (13-103), 可 得 
Sim, = 1， Din,= = (13-115) 
现在 定义 两 个 随机 变量 U 和 V, 使 得 
Pr(U=1, V=s) =n, (13-116) 
于 是 五 U=", 且 
logQ, (01 5025°*»2_15,)<cH(U, V) - cloge (13-117) 
或 
-TlogQi(z1, za 14 | 5) loge -EH(U, V) (13-118) 
而 
H(U, V)<H(U)+H(V) (13-119) 
E H(V)Slog|¥|t=k. W514 13.5.4, 有 
H(U)X(EU + 1)log( EU + 1) — (EU )log( EU) (13-120) 
= (2 +1) tog{2 +1} - log # (13-121) 
C 
=log 2 + (4 +1)log(£ +1) (13-122) 
因此 ， 
c CP 于 
ntl U, VIS + n log c + o(1) (13-123) 


对 给 定 的 n, M c 取 最 大 值 时 (对 于 二 过 二),， Slog SARK. MAIM 13.5.3，c<<j 


(1+o(1))。 于 是 


因此 ,， 当 za 一 co 时 ,二 (DY) 一 0。 所 以 ， 
c(n)logc(n) — _ 
n 


其 中 , n> oR, ss(2) 一 0。 因 而 依 概率 1， 有 


TlogQi 215.225" xn)s1) + ealn) 


lim supt en) < lim — Lg (Xi, Xa „Xal X -D) 


=H(Xo|lX_1,…,X_;) 
一 五 (七 ) 当 & 一 co 时 
现在 来 证 明 L278 编码 是 渐 近 最 优 的 。 


(13-124) 


(13-125) 


(13-126) 


(13-127) 
(13-128) 


EH 13.5.3 设 |Xil2。 为 平稳 遍历 随机 过 程 ，!(Xi,X2，…，Xo) 为 序列 X1,X2,°°,X, 的 


LZ78 码 长 ， 则 
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lim sup H(X, X2 X) CHX) 依 概率 1 成 立 (13-129) 


其 中 H(X) AR 2H HF. 
证 明 : 我 们 已 经 证 明 (Xi, X230 Xn) = c(n)(loge(n) +1), 其 中 c(n) RAN FB X, 
Xa, X 的 1LZ78 解析 中 的 词组 数 。 由 引 理 13.9.3 可 知 , lim sup c(n)/n=0, 于 是 , 由 定理 
13.5.2 即 可 证 得 
fin sup Au sa Pe.) =" sup (< n How c(n) +e) 
<H(X) 依 概率 1 成 立 (13-130) 口 
由 此 可 知 , 对 于 遍历 信 源 ，LZ78 码 的 每 信 源 字符 长 度 浙 近 不 大 于 信 源 的 炉 率 。 对 于 L278 的 
最 优 性 证 明 , 有 几 个 有 趣 的 特征 值得 注意 。 相 异 词组 数 的 上 界 和 Ziv 不 等 式 都 适用 于 字符 串 的 任 
何 相 异 解析 , 不 仅 对 算法 中 所 用 的 增 量 式 解析 形式 适用 。 对 于 解析 算法 的 各 种 变形 ， 上 述 证 明 过 
程 在 许多 方面 都 可 以 得 到 推广 。 例 如 ， 当 上 下 文 或 状态 相互 依赖 时 ， 使 用 多 重 树 就 可 解决 问题 
[218,426]。Ziv 不 等 式 ( 引 理 13.5.5) 是 一 个 非常 有 趣 的 结果 , 这 是 因为 不 等 式 一 侧 是 概率 , TA 
一 侧 是 序列 解析 的 一 个 纯 确 定性 函数 ,Ziv 不 等 式 将 它们 完美 地 联系 了 起 来 。 
Lempel-Ziv 码 是 通用 码 的 简单 实例 ( 即 编码 不 依赖 于 信 源 的 具体 分 布 )。 这 种 编码 在 未 知 信 
源 分 布 的 情况 下 就 可 使 用 , 而 且 可 达 的 渐 近 压缩 率 等 于 信 源 的 箭 率 
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习题 
13.1 


13.2 


13.3 


13.4 


1335 
13.6 


13.7 








最 小 最 大 遗憾 数据 压缩 与 信道 容量 。 首 先 考 虑 两 个 信 源 分 布 的 通用 数据 压缩 。 设 字母 表 
V={1,¢,0}, 离散 密度 加 (上 ) 当 vv=1 时 为 1- ai 4v=etth a; 离散 密度 p,(v) 当 w=0 
时 为 1-a, 当 v=e 时 为 x。 灵活 地 选取 概率 密度 函数 p(v), 并 用 理想 的 码 字 长 度 (v) 


= log Ae 元 可 来 匹配 V 的 码 字 长 度 。 在 最 坏 情况 下 , 额外 所 需 的 描述 长 度 ( 即 超出 真实 分 布 
AY AB EB oP ) 为 
1 1 
max( Enlog 5775 ~ Enlog (yy ) =maxD(p, | p) (13-138) 
由 此 , 最 小 最 大 遗憾 为 D* = min,max; D(zp; || p)o 


(a) ® D*. 
(b) 求 达到 D WAY p(wv)。 
(c) 比较 D* 和 二 元 擦 除 信道 的 容量 ， 


并 给 出 讨论 。 
AKER. BEX LWA ROA, 

P ={6:7,0.20., R=01.0,70.2), 020.107) 
(a) 试 求 压缩 的 最 小 增 量 式 成 本 

D* =min maxD( P; || P) 

其 中 相应 的 密度 函数 为 P= (pi, P2, p3)» 理想 的 码 字 长 度 为 / = log(1/p;)o 
(b) 以 P,, P,P. WEAKEN BARREL? 
算术 编码 。 设 |X;|>0 为 平稳 二 元 马尔 可 夫 链 , 转移 矩阵 为 








iw: 
4 4 
Py = 13 (13-139) 
4 4 
# X°=1010111---, 计算 F(X”) =0.F Fy A 3 比特 。 这 确定 了 X” 的 多 少 位 ? 
ap 2 
StS 
算术 编码 。 设 Xi 为 二 元 平稳 马尔 可 夫 链 ， 转移 矩阵 为 na 
3 3 








(a) R F(01110) = Pr{ .X,X,X3X,X5<.01110}. 

(b) 如 果 不 知道 X=01110 将 如 何 继续 , 则 多 少 比特 的 .FiF2… 可 以 被 确定 。 

Lempel-Ziv。 给 出 00000011010100000110101 的 LZ78 解析 和 编码 。 

常 序列 的 压缩 。 假设 给 定常 序列 2” =11111---, 

(a) 给 出 这 个 序列 的 LZ78 解析 。 

(b) 证 明 当 nokt, 这 个 序列 每 字符 编码 比特 数 趋 于 零 。 

另 一 个 理想 化 的 Lempel-Ziv 编码 版 本 。 我 们 已 经 证 明理 想 化 的 LZ 版 本 是 最 优 的 : 编码 器 
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13.8 


13.9 


13.10 


13.11 


和 译 码 器 都 可 以 访问 过 程 …,X_:,Xo 产生 的 “无 限 过 去 ”, 并 且 对 于 字符 串 (Xi, Xp, °°, Xp) 
的 描述 ,编码 器 将 过 去 该 字符 串 首次 再 现 的 位 置 告诉 给 译 码 器 。 这 大 约 要 花费 logR, + 
2loglogR, 比特 。 下 面 考虑 如 下 的 变化 ; 编码 器 不 描述 R, ,而 描述 R,_1 和 最 后 一 个 字符 
X,。 从 这 两 个 分 量 , 译 码 器 可 以 重 构 出 字符 串 (X1, XX,,… ,XX,)。 
(a) 在 上 述 情形 下 , 编码 (Xi ,XX,,… ,X,) 所 需 的 每 字符 比特 数 为 多 少 ? 
(b) 修改 正文 中 的 证 明 过 程 , 据 此 说 明 这 个 版 本 也 是 渐 近 最 优 的 : 即 , 每 字符 期 望 比 特 数 
KATARE. 
LZ77 中 的 指针 长 度 。 对 LZ77 版 本 , 根据 Storer 和 Szymanski[ 507] 的 阐述 ( 见 13.4.1 节 )， 
较 短 的 匹配 可 以 表示 为 (F,P,L)( 标 识 , 指针 , 长 度 ) 或 者 (F,C)( 标 识 , 字符 )。 假 定 窗口 
KEW W, 最 大 匹配 长 度 为 M。 
(a) 为 表达 P 需要 多 少 比 特 ? RIAL 又 需要 多 少 比 特 ? 
(b) 假定 字符 表示 C 的 长 度 为 8 比特 。 如 果 P 加 上 工 的 表示 长 度 超过 8 比特 , 那么 ,将 单 
字符 匹配 表示 为 未 压缩 字符 比 起 表示 为 字典 内 匹配 的 效果 更 好 。 但 是 ,必须 将 其 表示 为 
字典 内 的 一 个 匹配 而 非 未 压缩 字符 时 , 这 样 的 最 短 匹配 为 多 少 (为 W 和 M 的 函数 )? 
(c) 设 W=4096, M=256, 如 果 将 其 表示 为 一 个 匹配 而 非 未 压缩 字符 , 最短 匹 配 为 多 少 ? 
Lemple-Ziv78 
(a) 继续 序列 0, 00, 001, 00000011010111 的 Lemple-Ziv 分 解 。 
(b) 给 出 一 个 序列 , 使 得 LZ 解析 中 词组 数 的 增长 尽 可 能 快 。 
(c) 给 出 一 个 序列 , 使 得 LZ 解析 中 词组 数 的 增长 尽 可 能 慢 。 
固定 数据 库 的 两 个 Lemple-Ziv 版 本 。 考 虑 信 源 (4,P)。 为 简单 起 见 ， 假 设 字母 表 有 限 ， 
|.41=A<co, 且 字 符 串 为 i.i.d 一 P。 固 定数 据 库 刀 已 知 并 对 译 码 器 开放 。 编 码 器 将 目标 
序列 zx? 解析 成 许多 长 度 为 1 的 字符 组 , 并 且 对 它们 在 数据 库 中 的 最 近 出 现 进行 二 元 描 
R, 从 而 依 序 编码 它们 。 如 果 找 不 到 这 样 的 匹配 , 则 不 经 过 压缩 就 发 送 整 个 字符 组 , 这 
需要 llogA 比特 。 利 用 标识 告诉 译 码 器 , 匹配 位 置 是 经 过 描述 的 还 是 序列 本 身 。 在 (a) 和 
(bF, 给 出 了 (ec) 中 国定 数据 库 LZ 的 最 优 性 证 明 所 需 的 准备 知识 。 
(a) Bz, 是 长 度 为 1 且 起 始 于 0 的 8 典型 序列 ，R (过 ) 为 无 限 过 去 …,X-_-2,X-1 中 相应 的 
再 现下 标 。 证 明 
E[R,(X’) | Xx = x! 12 H+ 6) 
Ht H ATR. 
(b) 证 明 : 对 任意 s>0, 当 Loot, Pr(R (X) >248+9)- 一 0。( 提 示 : 以 字符 串 x! 为 条 
件 , 将 题 中 概率 展开 , 并 将 事件 分 成 典型 的 和 非典 型 的 两 类 。 然 后 利用 马尔 可 夫 不 等 式 
和 AEP 可 以 轻松 证 得 该 结论 。) 
(c) 考虑 以 下 两 个 固定 数据 库 : (DD, 为 所 有 8 RAR ARR, ODD: 为 无 限 过 去 ( 即 
X_r，…,X_i) 中 最 近 的 工 =248+9 个 字符 构成 。 结 合 数据 库 Di RD, 讨论 上 述 算法 是 
MUTE ORAS , BES AE ERER TAE. 
Tunstall 编码 。 信 源 编码 的 通常 做 法 是 将 来 自 有 限 字 母 表 的 字符 (或 一 组 字符 ) 映 射 成 变 
长 的 字符 串 。 赫 夫 曼 码 就 是 这 样 的 例子 , 它 是 从 字符 集 到 无 前 级 码 字 集 的 一 个 最 优 映射 
(从 最 小 期 望 长 度 上 讲 )。V-F 编码 是 将 不 定 长 的 信 源 字符 串 变 成 定 长 的 二 元 (或 万 元 ) 串 
的 编码 。 下 面 考虑 VEF 码 的 对 偶 问 题 ， 对 于 iid. 随机 变量 序列 Xis X2 tto Xn Xi ~ 
pz),zE 定 = 10,1,…,m 一 1|, V-F 码 定义 为 无 前 缀 词组 集 ApCX*, 其 中 4 “表示 所 有 
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CWAIRK EA BRE, |Apl = DD。 给 定 任意 序列 X1,X,,…,X, ,字符 串 解析 为 Ap 中 
的 词组 (由 Ap 的 无 前 级 性 可 知 ， 这 样 的 解析 是 惟一 的 )， 并 表示 为 来 自 D 元 字母 表 上 的 
一 个 字符 序列 。 定 义 该 编码 方案 的 有 效 性 为 


R(Ap) = 


其 中 L(Ap) 表 示 Ap 中 词组 的 期 望 长 度 。 
(a) 证 明 R(Ap)2H(X). 
(b) 构造 Ap 的 过 程 可 以 视 为 构造 m 又 树 的 过 程 , 树 的 叶子 为 Ap 中 的 词组 。 假 定 存在 
整数 & 宇 1, 使 D=1+k(m 一 1)。 考 虑 如 下 Tunstall 给 出 的 算法 : 
(i) 初始 化 A = 10,1,…,m 一 1 其 概率 分 别 为 po,P1，,…, pm-1。 这 对 应 于 深度 为 1 的 完 
全 m 叉 树 。 
Gi) 将 概率 最 高 的 节点 展开 。 例 如 , Ap 是 概率 最 高 的 节点 , 则 新 产生 集合 
= {00,01,-,0(m-1),1,=,(m—-1)} 
(ii) 重复 第 二 步 ， 直 至 叶子 数 (词组 数 ) 达 到 所 需 值 。 
证 明 : 对 于 给 定 的 D, 若 从 构造 具有 最 佳 R(ADp) 的 V-F 码 方面 看 ( 即 , 对 于 给 定 的 D, 
E L(A BARAK), Tunstall 算法 是 最 优 的 。 
(c) 证 明 : 存在 D, 使 得 R(Ap)<H(X) +1. 


历史 回顾 


Fitingof[211] 和 Davisson[159] 中 分 别 分 析 了 未 知 分 布 的 信 源 编码 问题 ,并 证 明了 存在 几 类 信 
源 , 它们 的 通用 信 源 编码 是 渐 近 最 优 的 。 将 通用 码 的 平均 宛 余 度 和 信道 容量 联系 起 来 的 结论 归 
功 于 Gallager[229] 和 Ryabkof450]。 证 明 见 Csiszár 给 出 的 结果 。 将 这 个 结论 推广 , 可 以 证 明 
Merhav 和 Feder[ 387] 给 出 的 结论 : 对 于 类 中 的 “大 部 分 " 信 源 , 信道 容量 就 是 元 余 度 的 下 界 , 这 个 
结果 是 推广 了 Rissanen[ 444,448] 给 出 的 关于 参数 情形 的 结论 。 

提出 算术 编码 程序 的 根源 是 Elias 发 展 起 来 的 香农 - 费 诺 码 (未 发 表 )，Jelinek 对 此 曾 做 过 分 
析 [297]。 书 中 所 述 的 无 前 缀 码 构造 程序 源 自 Gilbert 和 Moore[249]。 算 术 编 码 本 身 由 Rissanen 
[441] 和 Pasco[ 414] 提 出 ，Langdon 和 Rissanen[343] 进 行 了 推广 。 读 者 也 可 以 参考 Cover[120] 中 
的 穷 举 方法 。 有 关 算 术 编 码 的 介绍 手册 可 参看 Langdon[342] 和 Witten et al.[564]。 结 合 Willems 
et al.[560, 561] 给 出 的 上 下 文 的 树 形 加 权 算法 (context-tree weighting algorithm), 算术 编码 可 以 达 
到 Rissanen 下 界 [444], 因而 也 具有 最 优 速率 收敛 到 具有 两 个 未 知 参数 的 树 形 信 源 的 粹 。 

Lempel-Ziv 算法 最 初出 现在 Lempel 和 Ziv 的 开创 性 论文 [603,604] 中 。 虽 然 原 始 的 结论 非常 
有 趣 , 但 直到 Welch[ 554] 发 表 了 简单 而 又 有 效 的 算法 版 本 之 后 , 实现 压缩 算法 的 工作 者 才 对 此 引 
起 了 足够 的 重视 。 自 此 , 算法 的 多 种 版 本 相继 出 现 , 其 中 许多 都 获得 了 专利 。 当前 , 许多 压缩 软 
件 均 采 用 了 该 算法 的 某 种 版 本 , 这 包括 图 像 压缩 的 GIF 文件 和 调制 解 调 器 中 压缩 的 CCITT 标 
准 。LempeLZiv 滑动 窗 版 本 (LZ77) 的 最 优 性 证 明 归 功 于 Wyner 和 Ziv[575]。LZ78 的 最 优 性 证 明 
的 推广 [426] 证 明 LZ78 的 宛 余 度 的 阶 为 1ogla), 恰好 与 log(n)/n 的 下 界 相反 。 尽 管 对 于 所 有 
平稳 遍历 信 源 , LZ78 是 渐 近 最 优 的 , 但 相对 于 有 限 状 态 马 尔 可 夫 信 源 的 下 界 而 言 , MRN 
非常 慢 。 然 而 , 对 于 各 种 遍历 信 源 ,通用 码 的 宛 余 度 下 界 并 不 存在 ，Shields[ 492] 以 及 Shields 和 
Weiss[494] 通 过 例子 说 明了 这 点 。Effroset al,[181] 详 细 分 析 了 无 失真 压缩 算法 ,这 个 算法 主要 基 
于 Burrows 和 Wheeler[81] 提 出 的 分 组 排序 和 使 用 简单 的 游程 编码 。 有 关 通 用 的 预测 方法 可 以 参 
看 Feder, Merhav 与 Gutman [204,386,388]. 
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第 14 章 ， 科 尔 莫 戈 罗 夫 复杂 度 


伟大 的 数学 家 科 尔 莫 戈 罗 夫 毕生 致力 于 数学 、 复 杂 度 和 信息 论 的 研究 , 1965 年 他 给 出 一 个 
对 象 的 内 在 描述 复杂 度 的 定义 , 研究 生涯 达到 了 顶峰 。 在 目前 所 讨论 的 范围 内 , 对 象 X 总 是 假设 
为 一 个 服从 于 概率 密度 函数 p(xz) 的 随机 变量 。 如 果 X 是 随机 的 ,从 某 种 意义 上 说 事件 X= zx 的 
MEERE og Py. 这 是 由 于 log 7 | 是 用 香农 码 措 述 < MERHEM, HE, 我 们 
直接 看 出 这 种 对 象 的 描述 复杂 度 依赖 于 概率 分 布 。 

科 尔 莫 总 罗 夫 的 研究 更 广泛 。 他 把 一 个 对 象 的 算法 (描述 ) 复 杂 度 定义 为 能 够 描述 该 对 象 的 
二 元 计算 机 程序 的 最 短 长 度 (明显 地 , 计算 机 作为 最 一 般 形式 的 数据 解压 缩 器 , 经 过 有 限 步 的 计 
算 之 后 , 利用 这 个 描述 来 展示 被 描述 的 对 象 )。 于 是 , 一 个 对 象 的 科 尔 莫 区 罗 夫 复杂 度 不 涉及 概 
率 分 布 。 科 尔 莫 区 罗 夫 做 出 了 一 个 至 关 重要 的 观察 , 即 , 复杂 度 的 定义 本 质 上 是 独立 于 计算 机 
的 。 更 令 人 惊讶 的 事实 是 一 个 随机 变量 的 最 短 二 元 计算 机 描述 的 期 望 长 度 近似 等 于 它 的 炉 。 所 
以 , 最 短 计算 机 描述 的 作用 就 像 一 个 通用 码 , 它 对 所 有 的 概率 分 布 都 一 样 好 。 从 这 种 意义 上 说 ， 
算法 复杂 度 在 概念 上 是 科 的 前 身 。 

也 许 对 本 章 的 作用 的 最 恰当 的 理解 是 把 科 尔 莫 戈 罗 夫 复杂 度 当 作 一 种 思维 模式 来 考虑 。 在 
现实 中 , 我 们 并 不 使 用 最 短 的 计算 机 程序 , 这 是 因为 找到 这 种 最 小 程序 可 能 要 花费 无 限 长 的 时 
间 。 然而 , 在 现实 中 我 们 可 以 使 用 很 短 但 不 是 最 短 的 程序 ; ME, 寻找 这 种 短程 序 的 思想 可 以 启 
迪 人 们 去 构造 通用 码 , 它 是 归纳 推理 的 一 个 很 好 基础 , 奥 克 姆 剃刀 (“最 简单 的 解释 是 最 好 的 ”) 的 
一 种 公式 化 , 同时 也 有 助 于 加 深 对 物理 学 、 计 算 机 科学 和 通信 理论 中 的 基本 思想 的 理解 。 

在 正式 给 出 科 尔 莫 臣 罗 夫 复杂 度 的 概念 之 前 , 作为 例子 , 我 们 先 给 出 3 个 字符 串 。 它 们 是 

1. 0101010101010101010101010101010101010101010101010101010101010101 

2. 0110101000001001111001100110011111110011101111001100100100001000 

3. 1101111001110101111101101111101110101101111000101110010100111011 


这 些 序列 中 的 每 一 个 所 对 应 的 最 短 二 元 计算 机 程序 是 什么 ? 第 一 个 序列 肯定 非常 简单 。 它 
由 32 个 01 对 构成 。 第 二 个 序列 看 上 去 是 随机 序列 , 并 且 也 通 得 过 绝 大 多 数 的 随机 性 检验 , 然而 
它 实 际 上 是 无 理 数 /2 -1 的 二 进 制 展开 的 起 始 程序 段 。 所 以 , 这 仍然 是 一 个 简单 序列 。 第 三 个 序 
列 仍然 看 起 来 像 一 个 随机 序列 , 只 是 1 所 占 的 比例 不 接近 于 1/2. 我 们 将 假定 它 在 其 他 方面 是 随 
机 的 。 已 经 证 明 通过 描述 序列 中 1 的 数目 ,然后 以 字典 序 给 出 在 所 有 具有 相同 数目 1 的 序列 中 
该 序列 的 下 标 , 可 以 用 大 约 logn + nH (È ) 比 特 给 出 该 序列 的 一 个 描述 。 这 仍然 大 大 少 于 序列 中 
的 n 比特 。 我 们 再 次 推断 虽然 该 序列 是 随机 的 , 但 它 仍然 是 简单 的 。 然 而 , 在 这 种 情况 下 ,其 简 
单程 度 与 前 两 个 序列 并 不 一 样 ,前 两 个 序列 的 程序 长 度 是 常数 。 实 际 上 , 第 三 个 序列 的 复杂 度 是 
与 n 成 比例 的 。 最 后 , 我 们 可 以 想像 由 投 撕 硬 币 生成 的 真实 的 随机 序列 。 这 样 的 序列 共计 2” 个 ， 
它们 都 是 等 可 能 的 。 很 可 能 如 此 一 个 随机 序列 是 不 能 被 压缩 的 (也 就 是 , 对 于 这 样 的 序列 , 不 可 
能 找到 简单 到 比 指令 “输出 下 面 的 0101100111010…0” 更 短 的 程序 , 再 短 的 程序 将 无 法 运行 了 )。 
所 以 , 真正 的 随机 二 元 序列 的 描述 复杂 度 至 少 要 与 序列 本 身 一 样 长 。 
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这 些 是 最 基本 的 思想 。 剩 下 需要 证 明 的 是 内 在 复杂 度 的 概念 是 独立 于 计算 机 的 , 即 最 短程 
序 的 长 度 不 依赖 于 计算 机 。 乍 一 看 , 该 问题 似乎 无 意义 。 在 不 计较 一 个 附加 常数 的 意义 下 , 它 是 
正确 的 。 对 于 高 复杂 度 的 长 序列 , 这 个 附加 常数 ( 它 是 允许 一 个 计算 机 模拟 另 一 个 计算 机 的 预 纺 
程序 的 长 度 ) 是 可 忽略 的 。 


14.1 计算 模型 


为 给 出 算法 复杂 度 的 正式 概念 , 我 们 首先 讨论 关于 计算 机 的 可 接受 模型 。 绝 大 多 数 计 算 机 
都 能 够 模仿 其 他 计算 机 的 行为 。 从 这 意义 上 说 , 除了 最 普通 的 计算 机 外 ,所 有 计算 机 都 是 通用 
的 。 我 们 会 简略 地 叙述 一 下 最 典型 的 通用 计算 机 ， 即 通用 图 灵机 ， 它 也 是 概念 上 最 简单 的 通用 计 
算 机 。 

在 1936 年 , 图 灵 (Turing) 反 复 思 考 着 这 样 一 个 问题 , 即 一 个 有 生命 的 大 脑 中 的 思想 是 否 可 以 
等 价 地 用 无 生命 部 件 的 组 合 来 把 握 。 简单 地 说 , 就 是 一 台 机 器 能 否 思 考 ? 通过 分 析 人 类 的 计算 过 
程 , 他 对 于 这 种 计算 机 做 了 一 些 限制 。 明 显 地 ， 人 类 思考 , 创作 , BES, 再 创作 ,如 此 循环 往 
复 。 他 将 计算 机 考虑 成 一 个 在 有 限 符号 集 上 进行 运算 的 有 限 状 态 机 (一 个 无 限 符号 集中 的 符号 在 
有 限 空 间 内 不 能 被 区 分 )。 一 个 存储 了 二 元 程序 的 程序 磁带 被 从 左 向 右 地 传人 到 这 个 有 限 状态 
机 。 在 每 一 个 时 间 单 元 , 机 器 检查 这 个 程序 磁带 , 在 工作 磁带 上 做 出 标记 , 根据 它 的 转换 表 转 换 
它 的 状态 并 且 调 用 更 多 的 程序 。 这 种 机 器 的 操作 可 以 用 一 个 有 限 的 转换 列表 来 描述 。 图 灵 论 证 
了 这 个 机 器 可 以 模拟 人 类 的 计算 能 力 。 

继 图 灵 的 工作 之 后 ， 人 们 证 明了 每 一 个 新 的 计算 体系 都 可 以 简化 为 一 个 图 灵机 , 反之 亦 然 。 
特别 地 , 我 们 所 熟悉 的 带 有 CPU, 内 存 和 输入 输出 配置 的 数字 计算 机 可 以 由 一 个 图 灵机 来 模拟 ， 
并 且 反 过 来 也 可 以 模拟 一 个 图 灵机 。 这 启发 Church 撰写 出 了 现在 被 誉 为 Church 命题 的 论文 ,该 
文章 指出 : 在 可 以 计算 相同 函数 族 的 意义 下 , 所 有 (充分 复杂 的 ) 计 算 模 型 都 是 等 价 的 。 它们 可 计 
算 的 函数 类 与 我 们 直觉 上 的 可 有 效 计算 的 函数 类 概念 相 一 致 , 即 对 于 这 类 函数 , 均 存 在 一 个 有 限 
的 命令 或 者 程序 使 得 计算 机 在 机 械 既 定 的 有 限 个 计算 步骤 内 产生 出 需要 的 计算 结果 。 

在 本 章 中 , 我 们 要 始终 记 住 图 14-1 中 所 示 的 计算 机 。 在 计算 的 每 一 步 , 计算 机 从 输入 磁带 
上 读 取 一 个 符号 , 根据 本 身 的 状态 转换 表 改 变 状 
AS, 可 能 在 工作 磁带 或 输出 磁带 上 写 入 一 些 东 西 ， 
然后 移动 程序 读 取 磁头 到 程序 读 取 磁 带 的 下 一 个 
单元 。 机 器 仅 从 右 向 左 读 取 该 程序 ， 从 不 道 向 读 
取 , 因此 所 有 程序 形成 了 一 个 无 前 缀 集 。 不 存在 一 工作 磁带 
个 可 以 导致 计算 停止 的 程序 是 另 一 个 这 种 程序 的 图 14-1 图 灵机 
前 缀 。 对 于 无 前 缀 程序 的 限制 直接 导出 在 形式 上 
类 似 与 信息 论 的 科 尔 莫 戈 罗 夫 复杂 度 的 理论 。 

我 们 可 以 将 图 灵机 看 作 一 个 从 有 限 长 度 二 元 串 的 集合 到 有 限 或 无 限 长 度 二 元 串 的 集合 的 映 
射 。 在 一 些 情况 下 , 计算 并 不 停止 , 并 且 在 这 种 情况 下 ,函数 的 值 被 说 成 是 无 定义 的 。 由 图 灵机 
可 计算 的 函数 £3 10,1)" 10,1) * U 10,1} OP RAIA AR iS I BK 


14.2” 科 尔 莫 戈 罗 夫 复 杂 度 : 定义 与 几 个 例子 


设 xz 是 一 个 有 限 长 度 的 二 元 串 , U 是 一 个 通用 计算 机 。7 (zx) 表示 二 元 串 x 的 长 度 。 当 给 定 
一 个 程序 p 时 , 令 U(p) 表 示 计 算 机 U 关 于 程序 p 的 输出 。 
我 们 定义 二 元 字符 串 z 的 科 尔 莫 戈 罗 夫 (或 算法 ) 复 杂 度 为 z 的 最 小 描述 长 度 。 
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定义 ”关于 一 个 通用 计算 机 L , CTE x 的 科 尔 莫 龙 罗 夫 复 杂 度 区 zf (z) 定 义 为 
Ku(z)= „gin Lp) (14-1) 
即 能 够 输出 z 并 且 停止 的 所 有 程序 的 最 小 长 度 。 Fe, Ky (xz) 就 是 所 有 可 由 计算 机 UU 说 明 的 x 
的 描述 中 的 最 短 描述 长 度 。 

为 了 理解 科 尔 莫 戈 罗 夫 复杂 度 , 我 们 叙述 一 个 有 用 的 技巧 : 如 果 某 人 能 够 向 另 一 人 描述 一 个 
序列 , 他 的 方法 明确 地 给 出 在 有 限 步 又 内 完成 该 序列 的 一 个 计算 , 则 二 人 交流 过 程 中 所 使 用 的 比 
特 数 是 科 尔 莫 戈 罗 夫 复杂 度 的 一 个 上 界 。 例 如 ,指令 “Print out the first 1, 239, 875, 981, 825, 
931 bits of the square root of e.” 假 设 每 个 字符 8 比特 (ASCID , 可 以 看 出 这 73 个 确切 的 字符 的 程 
序 揭示 了 这 个 天 文 数字 的 科 尔 莫 戈 罗 夫 复杂 度 不 会 超过 (8)(73) = 584 比特 。 在 具有 该 长 度 ( 大 于 
千 的 五 次 方 比特 ) 的 数字 中 , 绝 大 多 数 的 科 尔 莫 戈 罗 夫 复杂 度 为 1, 239, 875, 981, 825, 931 比 
特 。 存 在 计算 。 的 平方 根 的 简便 算法 这 一 事实 提供 了 一 种 降低 描述 复杂 度 的 方法 。 

在 上 面 的 定义 中 , 并 没有 提 及 任何 关于 xz 的 长 度 的 话题 。 如 果 计 算 机 已 经 知道 z 的 长 度 ， 
则 我 们 能 够 定义 已 知 !(z) 下 的 条 件 科 尔 莫 功 罗 夫 复 杂 度 为 | 


Ku(zl(z))= min Lp) (14-2) 


此 即 在 z 的 长 度 固定 条 件 下 , 计算 机 可 得 到 x 的 最 短 描述 长 度 。 

需要 注意 的 是 ，Kw (zx1y) 通 常 定义 为 Ku (chy), 其 中 y 表示 y 的 最 短程 序 。 这 是 为 
了 回避 某 些 轻微 的 不 对 称 性 , 但 是 这 里 我 们 并 不 使 用 这 个 定义 。 

我 们 首先 证 明科 和 尔 莫 戈 罗 夫 复杂 度 的 一 些 基 本 性 质 , 然后 考虑 各 种 各 样 的 例子 。 

定理 14.2.1( 科 人 尔 莫 葬 罗 夫 复杂 度 的 通用 性 ) 如 果 L 是 一 个 通用 计算 机 ， 那 么 对 于 任意 其 
他 的 计算 机 .A，, 对 所 有 的 二 元 事 xE l0,1)*, 均 有 

Kulr)<KA(r)+cA (14-3) 

其 中 常数 cA 不 依赖 于 x. 

证 明 : 假定 对 于 计算 机 A 我 们 有 一 个 输出 z ER pao FRAC) = z。 在 我 们 可 以 在 该 
程序 之 前 增加 一 个 模拟 程序 s4, 它 告 诉 计算 机 MU 如 何 模 拟 计算 机 A。 然 后 , 计算 机 UU 将 解释 关于 
A 的 程序 中 的 指令 , 执行 对 应 的 计算 并 且 输 出 zx。 该 程序 MH 是 p= s4 pa, 它 的 长 度 是 


1(p)=1(s5A)+1(pA)=cA+L( pa) (14-4) 
其 中 c4 是 模拟 程序 的 长 度 。 因 此 ,对 所 有 的 二 元 串 r, 有 
Ky(2)= min Ups min (ip) + ca) = Ka(a)t+c, (14-50 


pU =a 
该 定理 中 的 党 常数 cA 可 以 非常 大 。 例如 ， “4 可以 是 一 个 安装 了 具有 大 量 功能 的 软件 系统 的 大 
型 计算 机 。 计 算 机 可 以 是 一 个 非常 简单 的 微 处 理 器 。 模 拟 程序 要 包含 所 有 这 些 函 数 的 实施 细 
节 , 事实 上 ,就 是 大 型 计算 机 上 所 有 可 获得 的 软件 。 至 关 重 要 的 一 点 是 该 模拟 程序 的 长 度 独立 于 
将 被 压缩 的 二 元 串 z 的 长 度 。 对 于 充分 长 的 zx, 这 个 模拟 程序 的 长 度 可 以 忽略 , 并 且 当 我 们 讨论 
科 尔 莫 蕊 罗 夫 复杂 度 的 时 候 , 可 以 根本 不 提 这 个 常数 。 
如 果 A 和 都 是 通用 的 , 则 对 所 有 的 xz , 我 们 有 


IKu(z)~- Ka(zx)|<e (14-6) 
因此 , 在 后 面 所 有 进一步 的 定义 中 , 我 们 将 省 略 所 有 关于 MUM 的 下 标 , 而 假定 未 指明 的 计算 机 UU 是 
一 个 固定 的 通用 计算 机 。 
定理 14.2.2 (条 件 复 杂 度 小 于 序列 的 长 度 ) 
K(x|l(x))<l(a) +c (14-7) 


证 明 : 输出 2 的 一 个 程序 可 以 是 





ARRKFRAER 267 





Print the following /-bit sequence: £z1£1 Zra) 
注意 由 于 给 定 1, 所 以 不 需要 额外 的 比特 来 描述 它 。 由 于 给 出 了 l(c), 故 该 程序 是 自 定 界 的 , 于 
是 程序 何 时 结束 也 就 明确 定义 了 。 这 个 程序 的 长 度 是 I(x) tc. go 
如 果 不 知道 串 的 长 度 , 需要 一 个 额外 的 停止 符号 或 者 使 用 一 个 如 下 面 定 理 的 证 明 中 所 描述 
的 自动 断 句 方案 。 
定理 14.2.3 ( 科 尔 莫 苞 罗 夫 复 杂 度 的 上 界 ) 
K(2)SK(a21l(x)) + 2logl(x) +e (14-8) 
证 明 : 如 果 计 算 机 不 知道 1(x), 定理 14.2.2 的 方法 就 不 再 适用 。 我 们 必须 有 某 种 方法 来 通 
知 计算 机 什么 时 候 到 描述 序列 的 比特 串 的 结尾 处 。 我 们 来 描述 一 个 简单 但 低 效 的 方法 , 它 使 用 序 
列 01 作为 一 个 “逗号 ”。 
假定 :zx)=n。 为 了 描述 5(z), Hn 的 二 进 制 展开 中 的 每 一 位 重复 两 次 ; 然后 用 一 个 01 结 
东 这 个 描述 ,以 便 计算 机 知道 已 经 到 了 的 描述 的 结尾 处 。 例 如 , 数字 5( 二 进 制 表示 为 101) 将 
描述 为 11001101。 这 个 描述 需要 2[logn |+2 比特 。 于 是 , 含有 1(xz) 的 二 进 制 表 示 的 程序 不 会 使 
原 有 的 程序 长 度 增多 超过 2logi(x)+c 比特 , 由 此 我 们 得 到 定理 中 的 上 界 。 E 
描述 n 的 一 种 更 有 效 的 方法 是 如 下 的 递归 方式 。 首 先 指 定 n 的 二 元 表达 中 的 比特 数 (logn ) ， 
然后 指定 n 的 实际 比特 。 为 了 指定 n 的 二 元 表达 的 长 度 loga, 可 以 使 用 低 效 的 方法 (2loglogn ) 或 
者 有 效 的 方法 (loglogn + …)。 如 果 在 每 一 层 都 使 用 有 效 的 方法 , 直到 我 们 需要 指定 的 数 很 小 , 则 
我 们 可 以 用 logn + loglogn + logloglogn + … 比 特 来 描述 n， 其 中 加 法 一 直 持 续 到 最 后 的 正 项 。 有 
时 候 将 这 个 迭代 的 对 数 和 写作 log* n。 因 此 , 定理 14.2.3 可 以 改进 为 
K(2)<K(azll(x)) + log" I(x)+e (14-9) 
下 面 我 们 要 证 明 只 存在 极 少数 的 具有 低 复 杂 度 的 序列 。 
定理 14.2.4 ( 科 尔 莫 竞 罗 夫 复杂 度 的 下 界 ) 复杂 度 (x)<k 的 字符 囊 工 的 数目 满足 
jjfzEi0,1 :天 (z)<R <24 (14-10) 
证 明 : 短程 序 并 不 很 多 。 如 果 要 将 所 有 长 度 小 于 的 程序 列 出 的 话 , 我 们 有 


k-i 


A,0,100,01,10,11 ,1 (14-11) 
而 这 样 的 程序 的 总 数 是 

1424440424 -1=2'-1<2! (14-12) 
由 于 每 个 程序 仅 产 生 一 个 可 能 的 输出 序列 , SARE < 的 序列 的 数目 小 于 2*。 口 


Boy TIA, 也 为 了 本 章 剩余 的 部 分 的 叙述 方便 , 我 们 需要 对 二 元 炉 台 数 引信 一 个 特殊 
的 记号 
H(p) = — plogp — (1 - p)log(1 ~ p) (14-13) 


于 是 , 当 我 们 写 出 Ho( 二 x, ) 时 ,其 意思 是 - X,logX, ~ (1 X,)log(1 - X,) 而 不 是 随机 


变量 X, 的 焙 。 在 不 发 生 混淆 的 情况 下 , 将 简单 地 用 Hp) 代替 Ho(p)。 

现在 来 考虑 科 尔 莫 戈 罗 夫 复杂 度 的 各 种 各 样 的 例子 。 昌 然 复 杂 度 依赖 于 计算 机 , 但 仅 是 依赖 
一 个 附加 常数 。 为 明确 起 见 , 考虑 一 个 能 够 接受 没有 歧义 的 英语 指令 (二 进 制 格式 数字 ) 的 计算 
机 。 我 们 使 用 即将 在 引 理 17.5.1 中 证 明 的 不 等 式 


n nH(k/n) n Jat nH(k/n) i 
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例 14.2.1 (n 个 0 的 序列 ) 如 果 假 定 计算 机 知道 n, 那么 输出 该 字符 捉 的 一 个 短程 序 是 
Print the specified number of zeros 
这 个 程序 的 长 度 是 固定 的 比特 数 ， 从 而 不 依赖 于 z*。 因 此 该 序列 的 科 尔 莫 戈 罗 夫 复 杂 度 为 c， 
并 且 
K(000--O0|n)=c Yn (14-15) 
14.2.2 (nH RERPFRARE) 的 前 x 个 位 可 以 利用 简单 的 级 数 表 达 式 计算 。 如 
果 计 算 机 已 经 知道 n, 则 这 个 程序 的 长 度 是 一 个 很 小 的 常数 。 因 此 ， 
K(mm'n|n)=e (14-16) 
例 14.2.3 (Gotham 的 天 气 ) 假设 让 计算 机 输出 Gotham 镇 (纽约 市 的 别名 )n 天 的 天 气 。 可 
以 写 一 个 包含 完整 序列 c= rier a 的 程序 , 其 中 xz;=1 表示 第 i 天 下 雨 。 但 是 ,由 于 各 天 天 气 
之 间 高 度 相关 , 所 以 这 种 方法 是 低 效 的 。 我 们 可 以 为 该 序列 设计 各 种 各 样 的 编码 方案 以 便 将 这 
种 依赖 因素 考虑 在 内 。 一 个 简单 的 方法 是 找到 一 个 马尔 可 夫 模 型 来 通 近 该 序列 (使 用 经 验 转 移 概 
率 ), 然后 使 用 针对 这 个 概率 分 布 的 香农 码 来 对 该 序列 进行 编码 。 我 们 可 以 用 O(logn ) 比 特 来 描 


470| 述 经 验 马 尔 可 夫 转 移 概 率 , 然后 使 用 log 比特 来 描述 a, 其 中 p 是 特定 的 马尔 可 夫 概 率 。 假 
定 天 气 的 粹 是 14 比特 /天 , 我 们 可 以 使 用 大 约 n/5 比特 来 描述 ”天 的 天 气 , 因此 
K (Gotham 的 天 气 | 2) 5 + O(logn) +c (14-17) 


例 14.2.4 (F642 0101010101 的 重复 序列 ) 对 于 这 样 的 序列 , 一 个 短程 序 足 侨 。 仅 需 输出 

01 对 的 数目 。 因 此 ， 
天 (010101010…011z) = C (14-18) 

例 14.2.5 (分 形 ) 分 形 是 芒 德 布 罗 (Mandelbrot) 集 的 一 部 分 , 由 一 个 简单 的 计算 机 程序 生 
成 。 对 复 平面 中 不 同 的 点 c, 给 定 映射 z, ,1= z2+c( 初 始点 zo=0), 我 们 来 计算 使 |z| 超 过 一 个 
特定 阐 值 所 需要 的 迭代 次 数 。 然 后 根据 需要 的 迭代 次 数 将 c 涂 上 颜色 。 所 以 该 分 形 作 为 例子 可 
表达 这 样 一 个 信息 : 一 个 对 象 看 上 去 似乎 非常 复杂 但 实际 上 却 非常 简单 。 它 的 科 尔 莫 戈 罗 夫 复 
杂 度 本 质 上 为 零 。 

例 14.2.6 (ŽA as) 我 们 可 以 从 这 幅 油画 的 布局 和 点 缀 物 中 获得 许多 有 用 的 信息 。 我 们 
可 以 一 个 大 约 为 173 的 压缩 比 或 者 利用 一 些 已 经 存在 且 容易 描述 的 图 像 压缩 算法 来 压缩 该 图 像 。 
因此 ,如 果 蒙 娜 丽 莎 这 幅 画 中 像素 的 数目 是 x, 那么 | 


K (RMA | n)<Z + (14-19) 


14.2.7 (整数 n) 如果 计算 机 知道 整数 的 二 进 制 表示 的 位 数 , 则 只 需要 提供 这 些 位 置 上 
的 值 。 该 程序 的 长 度 将 为 + logn。 

通常 计算 机 并 不 知道 该 整数 的 二 进 制 表示 的 长 度 。 所 以 , 我 们 必须 以 某 种 方式 通知 计算 机 在 
什么 时 候 描述 结束 。 利 用 推导 出 式 (14-9) 时 所 使 用 的 描述 整数 的 方法 ， 可 以 看 出 一 个 整数 的 科 
尔 莫 戈 罗 夫 复 杂 度 的 一 个 上 界 为 

K(n)<log* n +c (14-20) 

例 14.2.8( 含 有 不 个 工 的 7 比特 长 度 序列 ) 我 们 能 够 将 一 个 含有 个 工 的 比特 长 的 序列 
进行 压缩 吗 ? 7 

我 们 首先 会 猜测 不 能 , 这 是 因为 我 们 要 求 该 序列 中 的 比特 必须 具有 精确 的 重复 规律 。 然而 

考虑 下 面 的 程序 : 
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Generate, in lexicographic order, all sequences with k ones; 


Of these sequences, print the i th sequence. 


该 程序 将 输出 所 需 的 序列 。 该 程序 中 仅 有 的 两 个 变量 是 (范围 是 10,1,…,n|) 和 i( 条 件 范 闭 是 
上 1.2,…,(”) |。 这 个 程序 的 总 长度 是 | 
l(p) = + logn + og( 7) (14-21) 

RR TY 


, k 1 
<c + logn + nH (£ ) -二 logn (14-22) 





根据 式 (14.14) A|” )< Hero, HP p=k/n,q=1-p, k Æ£0,k £n. 我 们 已 


xnpq 


经 使 用 logn LERRA ko FE, 如果》) x, = k, WA 


K(x 22, xal 2) <nHy(*) + Hoga + c (14-23) 


我 们 可 以 将 例 14.2.8 概括 成 下 面 的 定理 。 
定理 14.2.5 DEP r 的 科 尔 莫 驴 罗 夫 复 杂 度 的 上 界 为 


下 (zz2 a, |n)< nHy(+ >) x; )+ F logn te (14-24) 
1 


证 明 : 利用 例 14.2.8 中 所 描述 的 程序 , 立即 可 得 该 结论 。 口 
注释 : 假定 zxE {0,11 * 是 我 们 所 希望 压缩 的 数据 , 并 且 考 虑 使 用 程序 p 来 压缩 该 数据 。 只 
有 当 i(p)<i(zx) 或 
K(2)<l(x) (14-25) 
时 , 我 们 才 可 能 成 功 地 压缩 该 数据 。 一 般 来 讲 ， 当 序列 x 的 长 度 !(z) 较 小 时 , BRR RS RAR 
度 的 表达 式 中 所 出 现 的 常数 将 超过 !(z) 的 贡献 。 因 此 ,只 有 当 !(z) 非 常 大 时 , 这 个 理论 才 是 有 
用 的 。 在 这 种 情况 下 , 我 们 可 以 放心 地 忽略 掉 不 依赖 于 !(z) 的 常数 。 


14.3” 科 尔 莫 戈 罗 夫 复 杂 度 与 炮 


现在 我 们 考虑 一 个 随机 变量 序列 的 科 尔 莫 戌 罗 夫 复杂 度 与 它 的 粹 之 间 的 关系 。 一 般 地 , 我 
们 证 明 随 机 序列 的 科 尔 莫 戈 罗 夫 复 杂 度 的 期 望 值 接近 于 香农 米 。 首 先 , 证 明 所 有 程序 的 长 度 满 
E Kraft 不 等 式 。 . 

引 理 14.3.1 对 任意 的 计算 机 U4， 


SD 2) <1 (14-26) 
PU (p) 停 止 


iE: 对 于 任意 程序 , 计算 机 一 旦 停止 运行 , 那么 它 不 再 理会 任何 其 他 输入 。 因 此 , 不 存在 
任何 其 他 的 停止 程序 以 这 个 程序 作为 前 级 。 因 此 , 所 有 的 停止 程序 形成 一 个 无 前 级 集 , 并 且 它 们 
的 长 度 满足 Kraft 不 等 式 (定理 5.2.1)。 


下 面 证 明 对 于 有 限 字母 表 的 独立 同 分 布 过 程 ,JE K(X*1n)~H(X)。 
定理 14.3.1(ARERFRARRSBMKA) ”假设 随机 过 程 |X;| 为 i.i.d 且 服 从 概率 密 
RBM flr), t EX, RPXR-AAMFBR, Afla) = ][ Ma), 那么 对 于 任意 的 n， 存 在 


一 个 常数 c, 使 得 
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H(X) <LINK” nL HX) +U# ‘~ Dlogn +£ (14-27) 
从 而 i 
EKO |n)>H(X) (14-28) 


证 明 : 先 考虑 下 界 。 容 许 的 程序 必须 满足 前 缀 性 质 , 这 样 它们 的 长 度 满足 Kraft 不 等 式 。 我 
们 将 满足 U(p,n)= x" 的 最 短程 序 p 的 长 度 分 配给 每 个 x”*。 这 些 最 短 的 程序 也 满足 Kraft 不 等 
式 。 从 信 源 编码 理论 我 们 知道 期 望 码 字 长 度 不 小 于 炉 。 因 此 ， 
2 f(x) Kr | n) > H(X, X, X,) = nH(X) (14-29) 
接 下 来 我 们 讨论 读 是 二 元 字母 表 时 的 上 界 ， 即 Xi ,XX，,…, XX, 是 i.i.d 一 Bernoulli(9)。 使 用 定理 
14.2.5 的 方法 , 我 们 可 以 给 出 二 元 串 的 复杂 度 的 上 界 


K(xziz2*xa | ny nHy(+ >) z; )+ Fogn +c (14-30) 
is1 
因此 ， l 
1x 1 
EK(X, X7 X, |n) < nEHo( D) x; }+ Flogn + c (14-31) 
i=l 
o (1% 1 
nHy{ — 2, EX; }+ Fh + 14-32 
=> of n = ) 2 6n te ( ) 
= nHg(8) ++ logn +c (14-33) 


其 中 (a) 可 以 由 Jensen FERARO., FRM SOT, 我 们 已 经 证 明了 定理 中 的 
ER. 

对 于 非 二 元 情形 的 有 限 字母 表 , 我 们 可 以 使 用 相同 的 技巧 。 我 们 首先 用 (| 光 | -1)logn 比特 
(因为 最 后 一 个 符号 的 频率 可 以 通过 其 余 符号 的 频率 计算 出 来 ) 来 描述 序列 的 型 (每 个 字母 表 符号 
出 现 的 经 验 频率 在 第 11.1 节 中 定义 过 )。 然 后 , 我 们 描述 具有 相同 型 的 序列 之 集中 的 序列 的 指 
标 。( 正 如 第 11 章 中 所 讲 的 ) 由 于 这 个 型 类 中 的 元 素数 目 少 于 2O (其 中 Pw 是 序列 z" 的 型 )， 
因而 , 串 ao” 的 两 步骤 描述 法 的 长 度 满足 


K(2"|n)<nH(P,) + (X| -1)logn +c (14-34) 
接 下 来 与 二 元 情形 中 一 样 ,对 不 等 式 两 边 取 期 望 并 且 应 用 Jensen 不 等 式 , 有 

EK(X"|n)<nH(X) + (IX| -1)logn + c (14-35) 
两 边 同 除 ”给 出 定理 中 的 上 界 。 o 


去 掉 关 于 序列 长 度 的 条 件 作用 是 直截了当 的 。 使 用 类 似 的 手法 , 可 以 证 明 , 对 于 所 有 的 n, 
下 面 不 等 式 成 立 


H(X) < EDAK") < H(X) + LA Den + 二 (14-36) 
下 界 是 基于 K(x") 也 是 信 源 的 无 前 缀 码 这 个 事实 推出 的 , 而 上 界 则 是 基于 不 等 式 


K(2")SK(2"|n) + 2logn + c 
推出 的 。 于 是 ， 


E TK(X")>H(X) (14-37) 
并 且 当 计算 机 到 达 炉 界 时 , 可 压缩 性 也 就 达到 了 。 
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14.4 整数 的 科 尔 莫 戈 罗 夫 复杂 度 


在 14.3 节 中 , 定义 了 二 元 串 的 科 尔 莫 戈 罗 夫 复杂 度 是 在 通用 计算 机 上 输出 该 二 元 串 的 最 短 
程序 的 长 度 。 推 广 这 个 定义 , 可 以 定义 整数 的 科 尔 莫 戈 罗 夫 复杂 度 为 它 所 对 应 的 二 元 串 的 科 尔 
莫 戈 罗 夫 复杂 度 。 

定义 ”整数 n 的 科 尔 莫 戈 罗 夫 复杂 度 为 

K(n)= pin 1(p) (14-38) 

整数 的 科 尔 莫 戈 罗 夫 复杂 度 的 性 质 与 比特 串 的 科 尔 莫 戈 罗 夫 复杂 度 的 性 质 非 常 相似 。 下 面 
的 性 质 是 对 应 的 字符 串 的 性 质 的 直接 推论 。 

定理 14.4.1 对 于 通用 计算 机 A 和 

Ky(n)SK a(n) +4 (14-39) 
另外 , 由 于 任何 数字 都 可 以 由 它 的 二 进 制 展开 式 给 出 , 我 们 有 下 面 的 定理 。 

定理 14.4.2 

K(n)Slog* ntc (14-40) 
定理 14.4.3 ”存在 无 穷 多 个 整数 n 满足 K(n)>jogn。 

证 明 : 由 引 理 14.3.1 知 


DIK) <1 (14-41) 
a 7 
Dz = t= 0 (14-42) 
但 是 , 如果 对 于 所 有 的 n> no 有 K(n)<logn, 则 
Siz > Dæ = oo (14-43) 
这 是 一 个 矛盾 。 的 E O 





14.5 算法 随机 序列 与 不 可 压缩 序列 ` 


从 14.2 节 中 的 例子 可 以 很 明显 地 看 出 , 存在 一 些 很 容易 描述 的 长 序列 ,如 r 的 二 进 制 展 开 
的 前 100 万 位 。 同 样 , 也 存在 着 一 些 很 容易 描述 的 大 整数 , 例如 


2 
22 
22 
22 


或 (1001)1。 

我 们 接 下 来 证 明 : 虽然 存在 一 些 简单 的 序列 , 但 是 大 多 数 的 序列 并 没有 简单 的 描述 。 类 似 
地 , 大 多 数 的 整数 并 非 简单 的 。 因 此 , 如果 我 们 随机 选取 一 个 序列 , 我 们 很 可 能 选取 的 是 一 个 复 
杂 序 列 。 下 面 的 定理 说 明 一 个 序列 可 以 被 压缩 超过 比特 的 概率 不 会 超过 2。 


定理 14.5.1 设 Xi, X2, X, 为 服从 Bemoulli( + ) 的 一 个 随机 过 程 。 则 
P(R(XIX2 Kiln) nk) 2 (14-44) 
证 朋 : 
P(K(X, X X, |] n)<n-k) 


~ 
~J 
Un 


476 
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= 5 P(x1s229" Ep) (14-45) 
aapna Kr aynen) < n-k 
= > 2" (14-46) 
axa Kriz nN) < nk 
=| [rizr t r, K(riza rx In)<n~- kl2 
< 27427" (由 定理 14.2.4) (14-47) 
= 2-* (14-48) 
口 


因此 大 多 数 序 列 的 复杂 度 接近 于 它们 的 长 度 。 例 如 , 复杂 度 小 于 n 一 5 的 长 度 为 ”的 序列 的 
比例 小 于 1/32。 这 促使 我 们 给 出 下 面 的 定义 : 
定义 ” 称 一 个 序列 zl ,zaz,，…z, 是 算法 随机 的 (algorithmically random), 如果 


K(a,x2°"x,|n)2n (14-49) 
通过 计数 上 的 讨论 , 可 注意 到 对 每 一 个 x 至 少 存在 一 个 序列 zx", 满足 
K(2"|n)2n (14-50) 
定义 ”我 们 称 无 限 串 x 是 不 可 压缩 的 (incompressible) ， 如 果 
1 区 (zazaza za 2 -1 (14-51) 
定理 14.5.2 (关于 不 可 压缩 序列 的 强大 数 定律 ) RE z1x2… 是 不 可 压缩 的 , 则 在 
1 ~ 1 
PRE >75 (14-52) 


的 意义 下 它 满足 大 数 定律 。 因 此 , 在 任何 不 可 压缩 的 0-1 PF, 0 和 1 的 比例 几乎 相等 。 
证 明 : 令 % = LD zi RRA ar an 中 工 的 比例 。 然 后 利用 例 14.2 的 方法 ,可 以 写 出 一 
个 长 度 为 nHol 0,) 十 2log( n8, ) +c 的 程序 来 输出 x" o 于 是 ， 


Kl ln) pl0,) +2 Den + 全 (14-53) 
根据 不 可 压缩 假设 , 对 于 充分 大 的 n, 我 们 有 如 下 的 下 界 估 计 。 
i- Kil) Hd,) +2 bgn e (14-54) 
于 是 ， 
Ho(0) >1- PREE me (14-55) y 


通过 观察 Ho(p) 的 图 像 (图 14_2) 的 观察 可 说 明 ， 
对 于 充分 大 的 n, 9, 接近 于 1/2。 具 体 来 说 , EE 








的 不 等 式 蕴含 
1 1 
478 0,€(4-a,.5+6,) (14-56) 
其 中 8 的 选取 须 满足 
Hy(4~a,)=1- eo" (14-57) 
ERS YG n> ont, 6,70. Alt, 4 non, O OP 02 03 04 05 06 0708 09 | 
P 


1 1 
UBF L E 14-2 关于 zp 的 函数 Ho(p) 
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我 们 现在 已 经 证 明了 从 0 和 1 的 比例 几乎 相等 这 个 意义 上 来 说 , 不 可 压缩 序列 看 上 去 是 随机 
的 。 一 般 地 , 我 们 可 以 证 明 如 果 一 个 序列 是 不 可 压缩 的 , 那么 它 将 满足 所 有 关于 随机 性 的 可 计算 
的 统计 检验 (否则 , 识别 出 使 r 失败 的 检验 将 降低 z 的 描述 复杂 度 ， 从 而 产生 一 个 矛盾 。)。 从 这 
种 意义 上 来 说 , 关于 随机 性 的 算法 检验 是 终极 的 检验 , 在 它 之 中 包括 了 所 有 其 他 的 可 计算 的 随机 
性 检验 。 

我 们 现在 证 明 关 于 Bernoulli( 0) 序列 的 科 尔 莫 戈 罗 夫 复 杂 度 的 一 个 大 数 定律 。 一 个 i.i.d. H 
服从 Bernoulli(9) 过 程 的 二 元 随机 变量 序列 的 科 尔 莫 区 罗 夫 复杂 度 接 近 于 炉 Ho(9)。 在 定理 
14.3.1 中 我 们 已 经 证 明了 随机 伯 努 利 序 列 的 科 尔 莫 戈 罗 夫 复杂 度 的 期 望 值 收敛 于 粹 [也 即 ， 


E k(x, Xex, n) 一 Ho(0)]。 下 面 我 们 将 期 望 去 掉 。 
定理 14.5.3 B XI,X2，…X， 为 i.i.d. 的 且 服 从 Bernoulli(8) A) 
K(X Xa Xs | 2) > Ho(O) 依 概率 (14-58) 


证 明 : 令 X,= LOX, 是 X1,X2,…,X, 中 1 的 比例 。 然 后 使 用 式 (14-23) 中 所 描述 的 方法 ， 
我 们 有 


K(X,X2"":X,|n)<nHo(X,,) + 2logn + c (14-59) 
并 且 根 据 弱 大 数 定律 , 依 概率 X60, 我 们 有 
Pr 二 K(XIX2…Xu|z) - Hy( 8) Se > (14-60) 


相反 地 , REBR se Al BS EA BP BK, AEP, 可 以 将 序列 的 集合 分 为 典 


型 集 和 非典 型 集 两 个 部 分 。 典 型 集中 至 少 有 (1 一 e)2"%(9- 中 个 序列 。 在 这 些 典 型 序列 中 至 多 有 


22(H6(9)-o) 个 序列 的 复杂 度 小 于 n(Ho(0) - c)。 随 机 序列 的 复杂 度 小 于 n(Ho(9) - c) 的 概率 是 
Pr( K(X" | n) < n(Hy(8) - ¢)) 
<< Pr(X" ¢ A) +Pr € AM”, K(X" | n) < n(Hy(8) - c)) 


<e+ 2 pla") (14-61) 
TA KC In) <n( Hy(8)-0) 

< et 5 27 n(H,(a)-e) (14-62) 
TeA™ ,K(x 10) < n( Hy(9)-©) 

et 2 Ho(O)-c) Dn( HO)-e) (14-63) 

L e earners) (14-64) 


若 适 当选 择 。, n Alc, 该 数值 可 以 任意 小 。 因 此 , 随机 序列 的 科 尔 莫 戈 罗 夫 复杂 度 以 高 概率 接近 
TH, 并 且 我 们 有 
K(Xi, X23, Xain) 


n 





>H 0) 依 概率 (14-65) 
O 


14.6 普 适 概率 


假设 向 计算 机 输入 一 个 随机 程序 。 想 像 一 个 猴子 坐 在 键盘 上 并 且 随 机 地 殴 击 键盘 。 等 价 地 ， 
将 一 系列 的 均匀 硬币 投掷 输入 一 个 通用 图 灵机 。 无 论 是 郧 种 情况 , 大 多 数 的 字符 串 对 计算 机 不 
产生 任何 意义 。 如 果 一 个 人 坐 在 一 个 终端 处 随机 地 项 击 键 , 他 将 可 能 得 到 一 个 错误 消息 ( 即 计算 
机 将 输出 空 串 后 停止 )。 但 他 也 会 以 一 定 的 概率 敲 击 出 某 些 有 意义 的 东西 ， 计算 机 则 会 输出 这 个 
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东西 。 这 个 输出 序列 看 上 去 还 随机 吗 ? 

根据 我 们 早先 的 讨论 , 很 明显 , 长 度 为 n 的 大 多 数 序列 的 复杂 度 接近 于 n。 由 于 输入 程序 p 
的 概率 是 2-'# ， 所 以 得 到 短程 序 要 比 得 到 长 程序 的 可 能 性 更 大 。 当 所 有 短程 序 产生 长 字符 串 
时 , 它们 不 产生 随机 长 字符 串 ， 而 会 产生 具有 容易 描述 结构 的 字符 串 。 

输出 串 上 的 概率 分 布 远 非 均匀 的 。 在 计算 机 所 诱导 的 分 布下 , 得 到 简单 字符 串 的 可 能 性 要 大 于 
得 到 相同 长 度 的 复杂 字符 串 的 可 能 性 。 这 促使 我 们 接着 定义 字符 串 上 的 一 个 普 适 概率 分 布 的 概念 。 

定义 ”字符 串 x 的 普 适 概率 (universal probability) Æ 

Pulz) = 六 27?) = PrU(p) = x) (14-66) 


它 表 示 输 入 序列 py, Das .服从 随机 地 投 据 场 习 硬 币 时 ， 程序 输出 字符 串 z 的 概率 。 

从 许多 角度 来 看 ， 上述 定义 的 概率 是 普 适 的 。 我 们 能 将 它 考虑 为 在 自然 界 中 观察 一 个 串 的 
概率 ; 其 潜在 意图 是 简单 的 字符 串 要 比 复 杂 字 符 串 被 使 用 可 能 性 更 大 。 例 如 ,如果 希 望 描 述 物理 
定律 , 我 们 会 认为 用 最 简单 的 串 来 描述 的 定律 是 最 可 靠 的 。 这 个 原则 即 是 著名 的 奥 克 姆 剃刀 , JL 
个 世纪 以 来 它 一 直 是 指导 科学 研究 的 普遍 原则 一 一 如 果 存 在 许多 与 观察 到 的 数据 相 一 致 的 解释 ， 
选择 最 简单 的 。 在 我 们 的 框架 中 ， 奥 克 姆 剃刀 原则 等 价 于 在 所 有 能 够 产生 一 个 给 定 串 的 程序 中 ， 
选择 最 短 的 程序 。 

由 下 面 的 定理 , 我 们 可 称 这 个 概率 密度 函数 是 普 适 的 。 

定理 14.6.1 对 于 每 一 个 计算 机 A, 对 每 一 个 串 zE 10,11”, 有 

Pu (x)>c A PA(zx) (14-67) 
其 中 常数 c 4 仅 依赖 于 以 和 A。 

证 明 ; 根据 14.2 节 中 的 讨论 , 对 每 一 个 可 以 输出 z 的 .4 的 程序 p, 存在 一 个 长 度 不 超过 

IPO + cA 的 UM 的 程序 p, 它 是 通过 添加 一 个 对 于 A 的 模拟 程序 的 前 缀 而 产生 的 。 因 此 ， 


Pulz) = p2 27e > DD) ae = c'a Pale) (14-68) 
pU (p= PA) =r 
O 


对 于 取 自 二 元 串 上 的 一 个 可 计算 的 概率 密度 函数 的 任意 序列 , 它 都 可 以 看 作 是 由 某 台 计 算 
机 .A 作用 于 一 个 随机 输入 而 产生 的 (可 由 作用 于 随机 输入 的 概率 道 变换 得 到 )。 因 此 , 普 适 概率 分 
布 包括 所 有 可 计算 的 概率 分 布 的 混合 。 

注释 (有 界 似 然 比 ) 特别 地 , 定理 14.6.1 保证 了 假设 X 服从 Py SRR X IRM P4 的 一 个 似 
然 比 假设 检验 必然 共有 有 界 的 似 然 比 。 如 果 14 和 .4 是 通用 的 , 则 对 任意 的 x, 比值 Pu (x)/PA(z) 
必然 具有 一 个 远离 0 和 无 穷 大 的 界 。 这 与 其 他 的 简单 假设 检验 问题 形成 鲜明 对 比 (如 Bernoulli( 0, ) 
与 Bernoulli( 9,)), 此 时 当 样 本 量 趋 近 于 无 穷 时 ， 似 然 比 则 趋 近 于 OR., WER, 所 有 可 计算 分 布 
的 混合 Pw 可 能 是 某 个 服从 某 个 可 计算 的 概率 分 布 的 数据 的 真实 分 布 , 我 们 永远 都 不 可 能 完全 排 
除 这 种 情况 。 从 这 种 意义 上 说 , 我 们 不 能 排除 宇宙 是 由 一 只 猴子 在 计算 机 旁 打 字 而 得 到 的 一 个 输 
出 的 可 能 性 。 然 而 , 我 们 可 以 排除 宇宙 是 随机 的 假说 (猴子 没有 计算 机 )。 

在 14.11 节 中 我 们 将 证 明 

Py (a)2° Kz) sos (14-69) 


由 此 可 以 说 明 ，K(z) 和 log 万 二 -与 通用 算法 的 复杂 度 测度 具有 相同 的 地 位 。 直 于 log BS Cy 


是 美 于 普 适 概率 分 布 Py (x) 的 理想 码 字 长 度 (香农 码 字 长 ), 因此 这 特别 有 意思 。 
我 们 用 一 只 打字 的 猴子 与 一 只 操作 计算 机 键盘 的 猴子 的 例子 来 结束 本 节 。 如 果 打 字 的 猴子 
在 打字 机 上 随机 地 功 击 键 钮 ， 则 它 打出 莎士比亚 作品 (假设 文章 是 100 万 比特 长 ) 的 概率 为 
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2-10% 0%。 然 而 , 如 果 让 计算 机 跟前 的 狼 子 来 识 出 同样 的 莎士比亚 作品 , URE 27 Reker) 
22-2500%。 虽然 这 个 值 仍 非 常 小 , 但 这 已 经 是 坐 在 枯燥 的 打字 机 旁 的 猴子 的 概率 的 指数 倍数 了 。 

这 个 例子 说 明 一 台 计算 机 的 随机 输入 比 一 台 打 字 机 的 随机 输入 更 有 可 能 产生 “有 趣 的 "输出 。 
我 们 都 知道 计算 机 是 一 个 智力 放大 器 。 很 明显 , 它 也 可 以 从 无 意义 中 产生 出 有 意义 。 


14.7 ” 科 尔 莫 戈 罗 夫 复杂 度 


考虑 下 面 的 悖 论 : 
该 命题 是 错 的 。 
这 个 悖 论 有 时 候 用 一 个 二 重 命题 的 形式 给 出 ; 
下 一 个 命题 是 错 的 。 
前 一 个 命题 是 对 的 。 


这 些 悖 论 都 是 所 谓 的 Epimenides RRC MBM, 该 悖 论 道 出 了 卷 人 自 指 涉 的 陷阱 。 在 1931 F, 
哥 德 尔 (Gadel) 使 用 这 种 自 指 涉 的 思想 证 明了 任何 有 趣 的 数学 体系 都 是 不 完备 的 , 在 每 个 体系 中 
都 存在 这 样 一 些 命题 , 它们 虽然 是 正确 的 , 但 却 在 本 系统 内 部 不 能 得 到 证 明 。 为 了 实现 这 个 , 他 
将 定理 和 证 明 转 化 为 整数 ,并 构造 了 上 述 形式 的 一 个 命题 , 因此 , 它 无 法 被 证 明 是 正确 的 或 错误 
的 。 

计算 机 科学 中 的 停止 问题 与 责 德 尔 G6del 的 不 完备 定理 之 间 有 着 非常 紧密 的 联系 。 从 本 质 
Lit, 它 是 指 对 于 任意 的 计算 模型 , 都 不 存在 能 够 决定 一 个 程序 是 停止 还 是 继续 (永远 继续 下 去 ) 
的 一 般 算法 。 注 意 它 并 不 是 一 个 关于 任何 具体 程序 的 命题 。 相 当 清 楚 , 存在 许多 这 样 的 程序 , 我 
们 很 容易 证 明 它们 停止 或 者 永远 继续 。 停 止 问题 说 明 我 们 不 能 对 所 有 的 程序 回答 这 个 问题 。 原 
因 仍 然 是 自 指 涉 的 思想 。 

对 于 一 个 现实 世界 中 的 人 , 停止 问题 可 能 没有 任何 直接 的 意义 。 将 其 看 作 是 计算 机 (假设 无 
限 的 存储 器 和 时 间 ) 可 以 实现 的 事情 与 计算 机 不 可 实现 的 事情 (例如 证 明 数 论 中 所 有 正确 的 命题 ) 
之 间 的 分 隔 线 , 停止 问题 具有 十 分 重要 的 理论 意义 。 哥 德尔 的 不 完备 定理 是 20 世纪 最 重要 的 数学 
成 果 之 一 ， 人们 一 直 在 探索 该 理论 的 各 种 推论 。 停 止 问题 是 哥 德 尔 不 完备 定理 的 一 个 本 质 的 例子 。 

关于 停止 问题 的 算法 的 不 存在 性 的 命题 推论 之 一 是 科 尔 莫 戈 罗 夫 复杂 度 的 不 可 计算 性 。 通 党 
找到 最 短程 序 的 惟一 方法 是 将 所 有 的 短程 序 都 试 一 下 , 然后 观察 哪些 可 以 完成 这 项 工作 。 然 而 ， 
在 任何 时 候 都 有 一 些 短程 序 可 能 不 会 停止 , 而 且 也 不 存在 有 效 的 (有 限 的 , 机 械 的 ) 方 法 来 预测 是 否 
它们 会 停止 以 及 它们 将 输出 什么 。 因此, 不 存在 能 够 找到 输出 一 个 给 定 串 的 最 短程 序 的 有 效 方法 。 

科 尔 莫 戈 罗 夫 复杂 度 的 不 可 计算 性 是 Berry 悖 论 的 一 个 特例 。Berry 悖 论 寻找 不 能 使 用 少 于 
10 个 词 来 命名 的 最 短 数 字 。 没 有 任何 数 可 以 是 该 问题 的 解 ， 比 如, 像 1 101 121 这 个 数字 , 由 于 
它 本 身 的 定义 表达 就 少 于 10 个 字 长 。 这 揭示 了 包含 始 可 命名 又 可 措 述 的 问题 ,它们 将 变 得 太 难 
以 把 握 以 至 于 在 没有 一 个 严格 的 限定 情况 下 就 不 能 使 用 。 如 果 我 们 规定 “ 凡 能 被 计算 机 输出 就 是 
可 以 被 描述 "的话 , 那么 允许 用 少 于 10 个 字 描 述 的 最 小 数字 (但 不 可 计算 ) 就 可 以 解决 Berry BOF 
论 。“ 描 述 " 并 不 是 一 个 计算 该 数字 的 程序 。E. F. Beckenbach 曾 指出 一 个 类 似 的 问题 (他 将 数字 
划分 为 无 趣 或 有 趣 两 个 类 ) : 最 小 的 无 趣 数 字 一 定 是 有 趣 的 。 

如 本 章 开始 时 所 说 明 的 , 我 们 并 不 真正 盼望 实践 者 能 够 发 现 针对 一 个 给 定 串 的 最 短 计 算 机 
程序 。 尽 管 由 于 越 来 越 多 的 程序 被 证 明 产生 这 样 的 字符 串 , 前 面 给 出 的 科 尔 莫 戈 罗 夫 复杂 度 的 
上 上 界 估计 可 以 收敛 于 真实 的 科 尔 莫 戈 罗 夫 复杂 度 , 但 是 最 短 的 程序 是 不 可 计算 的 。( 当 然 , 问题 
是 人 们 本 可 能 已 经 发 现 了 最 短 的 程序 , 但 永远 也 不 会 知道 有 没有 更 短 的 程序 存在 。) 即 使 科 尔 英 
戈 罗 夫 复杂 度 是 不 可 计算 的 , 但 它 提供 了 一 个 可 以 在 其 中 考虑 随机 性 和 推理 问题 的 框架 。 


a 
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第 14 章 





14.8 


Q 


在 这 节 中 , 我 们 介绍 Chaitin 的 神秘 魔术 数 Q, 它 有 许多 极其 有 趣 的 性 质 。 
定义 


Q= 2 270) (14-70) 
pA (p) 停 止 


注意 Q=Pr(U(p) 停 止 ), 即 它 是 给 定 的 通用 计算 机 在 给 入 为 一 个 服从 Bernoulli( 方 ) 过 程 的 
二 元 目的 条 件 下 的 停止 概率 。 

由 于 可 以 停止 的 程序 是 无 前 级 的 , 它们 的 长 度 满足 Kraft RER, 因此 上 式 的 和 永远 在 0 和 
1 之 间 。 设 0,= .wiw2…w 表示 的 前 fio O 的 性 质 如 下 : 


1. 


2. 


QQ 是 不 可 计算 的 。. 不 存在 有 效 的 (有 限 的 , 机 械 的 ) 方 法 来 检验 任意 的 程序 是 否 会 停止 ( 停 
止 问题 ), 所 以 , 不 存在 计算 Q 的 有 效 方式 。 
Q 是 “哲学 家 的 一 决 石头 "。 了 解 0 精确 到 n 位 的 近似 值 很 重要 , 它 将 使 得 我 们 能 够 决定 
如 下 一 些 命题 的 真 伪 : 所 有 可 证 明 的 数学 定 或 可 以 否定 的 数学 命题 ,只 要 它们 可 以 用 不 
超过 ”比特 的 长 度 写 出 来 。 实 际 上 , 这 蕴含 着 是 当 已 知 Q 的 前 ”位 时 ,必然 存在 一 个 有 
效 的 程序 来 判定 ”比特 的 定理 的 真 伪 。 这 个 程序 可 能 耗费 任意 长 (但 有 限 ) 的 时 间 。 当 
然 , 由 于 不 知道 Q, 木 可 能 有 一 个 有 效 的 程序 来 检验 所 有 定理 的 真 伪 ( 哥 德尔 的 不 完备 性 
定理 )。 
用 9 的 前 ”位 的 信息 的 程序 的 基本 思想 是 十 分 简单 的 : 我 们 运行 的 所 有 程序 , 直到 
对 应 的 2-'2) 的 总 和 大 于 或 等 于 0, =0. we", (0, 为 0 截断 后 修正 , 它 是 已 知 的 ) 时 
停止 。 由 于 
N00,<2°” (14-71) 
由 此 我 们 得 知 , 所 有 进一步 能 够 以 2- “形式 对 Q 产生 贡献 的 可 停止 程序 的 总 和 也 必须 
小 于 2-"。 这 意味 着 长 度 入” 且 尚 未 停止 的 程序 已 经 不 存在 了 。 这 使 我 们 能 够 判断 所 有 
长 度 受 * 的 程序 是 否 会 停止 。 
为 了 完成 证 明 , 必须 证 明 如 下 事实 是 可 能 的 : 如 果 一 台 计算 机 “并 行 " 地 运行 所 有 可 
能 的 程序 并 且 要 求 任意 可 以 停止 的 程序 将 最 终 会 发 现 停止 。 首 先 , 列 出 所 有 可 能 的 程序 ， 
以 空 程序 和 开始: 
A,0,1,00,01,10,11,000,001,010,011,--- (14-72) 
然后 , 第 一 轮 让 计算 机 执行 A 的 一 个 时 钟 周 期 。 在 下 一 轮 中 , 让 计算 机 执行 A 的 两 个 时 
钟 周期 和 程序 0 的 两 个 时 钟 周期 。 在 第 三 轮 中 , 让 它 对 前 三 个 程序 中 的 每 一 个 执行 三 个 
时 钟 周 期 , 如 此 下 去 。 以 这 种 方式 , 计算 机 将 最 终 运行 所 有 可 能 的 程序 , 并 且 运 行 它们 的 
次 数 越 来 越 多 , 以 至 于 如 果 一 个 程序 能 停止 , 它 将 最 终 被 发 现 停止 。 计 算 机 追踪 哪个 程 
序 正在 被 执行 及 其 循环 的 次 数 ， 以 便 它 可 以 产生 一 个 所 有 可 以 停止 的 程序 的 清单 。 于 是 ， 
我 们 最 终 知 道 一 个 程序 是 否 能 在 n 比特 之 内 停止 。 如 果 定 理 可 以 用 少 于 n 比特 长 度 来 令 
述 的 话 , 这 就 使 得 计算 机 能 够 发 现 该 定理 的 任何 证 明 过 程 或 者 它 的 一 个 反例 。 对 Q 的 了 
解 将 先前 不 可 证 明 的 定理 转化 为 可 证 明 的 定理 。 这 里 Q 的 作用 就 像 一 个 预言 家 。 
虽然 从 Q 的 神奇 性 角度 来 看 , 还 有 其 他 数字 也 具有 相同 信息 量 。 例 如 ,如 果 列 出 程 
序 清单 并 且 按 清单 构造 一 个 二 进 制 实数 ,该 数 的 第 i 位 代表 是 否 程序 i 停止 。 则 这 个 数字 
也 可 以 用 于 决定 数学 中 任意 有 限 可 了 驶 斥 的 问题 。 但 从 信息 含量 角度 来 看 , 该 数 的 信息 浓 
度 非常 低 。 .这 是 因为 需要 用 大 约 2 个 示 性 函数 共计 2" 比特 长 度 去 换取 一 个 n 比特 长 度 
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的 程序 是 否 会 停止 的 决定 权 。 而 假如 给 定 2” 比特 , 那么 不 需要 任何 计算 可 以 立即 说 出 任 
意 长 度 小 于 的 程序 是 否 会 停止 。 相 比 之 下 ，Q 是 信息 最 紧凑 的 表达 ,因为 它 是 算法 随 
机 的 且 不 可 压缩 的 。 
利用 Q 可 以 解决 哪些 问题 ? 数论 中 许多 有 趣 的 问题 都 可 以 改写 为 寻找 反例 的 问题 。 
例如 , 可 以 直截了当 地 写 一 个 关于 整数 变量 z,y,z An 进行 搜索 程序 使 其 在 发 现 费 马 
(Fermat) 最 后 定理 的 一 个 反例 时 停止 。 所 谓 费 马 最 后 定理 是 指 : 对 于 nS, 
grt y= 2" (14-73) 
没有 整数 解 。 另 一 个 例子 是 哥 德 巴赫 (Goldbach) 猜 想 , 它 说 明 任 意 偶数 都 是 两 个 素数 之 
和 。 我 们 的 程序 将 遍历 从 2 开始 的 所 有 偶数 , 检查 所 有 小 于 它 的 素数 并 且 找到 等 于 两 个 
素数 和 的 分 解 形式 。 如 果 遇 到 一 个 没有 这 种 分 解 形式 的 偶数 , 它 将 会 停止 。 知 道 该 程序 
是 否 会 停止 等 价 于 了 解 哥 德 巴赫 猜想 是 否 正确 。 
我 们 还 可 以 设计 一 个 程序 , 让 它 搜索 所 有 的 证 明 , 并 且 限 制 它 只 有 当 发 现 定理 的 一 
个 证 明 时 才能 停止 。 如 果 定 理 有 一 个 有 限 证 明 , 这 个 程序 将 最 终 停止 。 因 此 , TEOR n 
位 之 后 , 就 可 以 发 现 所 有 如 下 命题 的 真 伪 : 它们 有 有 限 证 明 或 者 是 有 限 可 驳斥 的 , 都 可 以 
用 少 于 ”比特 来 叙述 。 
3. 0 是 算法 随机 的 。 
定理 14.8.1 QO 不 能 被 压缩 超过 一 个 常数 ， 即 存在 一 个 常数 c 满足 
开 (wlawz…ow) 志 2 一 c 对 任意 的 n (14-74) 
证 明 : 我 们 知道 , 如 果 给 定 0 的 前 = 位, 就 可 以 判定 任意 长 度 志 的 程序 是 否 会 停止 。 使 用 
KK(wiw2…w,) 比 特 , 可 以 计算 出 Q 的 前 个 比特 , 然后 生成 一 个 所 有 长 度 志 n 的 能 够 停止 的 程 
序 的 清单 , 以 及 它们 对 应 的 输出 。 接 着 , 我 们 找到 不 在 该 清单 上 的 第 一 个 串 to $ ro 就 是 科 尔 
莫 戈 罗 夫 复杂 度 K(xo)>n 的 最 短 串 。 这 个 输出 zo 的 程序 的 复杂 度 是 K(O0,) +c, 它 一 定 至 少 
与 关于 zo 的 最 短程 序 一 样 长 。 于 是 , 对 所 有 的 n, 有 
K(Q,) + c==K(29) >n (14-75) 
口 
因此 , K(wiw…w,)>n-c, 且 Q 不 可 能 被 压缩 超过 一 个 常数 。 


14.9 “万 能 博弈 


假定 一 个 赌 民 参 与 连续 博弈 二 元 序列 zE 10,1}" 。 如 果 他 对 该 序列 的 情况 一 无 所 知 ， 猜 测 
序列 x 中 每 一 个 比特 的 公平 收益 率 为 (2 竞 1)。 他 应 该 怎样 博弈 ? 如 果 他 已 经 知道 该 二 元 串 的 元 
素 的 分 布 , 那么 应 该 使 用 按 比 例 的 下 注 策略 , 这 是 因为 在 第 6 章 已 经 证 明了 该 策略 具有 最 优 增 长 
率 特 性 。 如 果 他 相信 该 二 元 串 是 自然 出 现 的 , 那么 从 直觉 上 来 说 ,简单 字符 串 比 复杂 字符 串 出 现 
的 可 能 性 更 大 。 因 此 , 如果 他 把 按 比例 下 注 的 思想 拓展 一 下 , 可 以 根据 该 二 元 串 的 普 适 概率 下 
注 。 例如， 当 赌 民 事先 对 二 元 串 x 有 了 解 , 那么 只 要 每 次 将 他 的 所 有 资金 都 押 在 x 的 下 一 个 符 
BL, 他 就 能 够 获得 2 的 相对 增长 率 。 用 S(z) 记 对 应 下 注 方案 blr), Dol) =1 的 相对 收 
益 , 那么 ，S(z) 可 以 由 如 下 公式 给 出 

S(x) =2! d(x) (14-76) 
假设 该 赌 民 在 二 元 串 zx 上 的 下 注 比 例 为 6(z) = 27%, 那么 该 下 注 策略 可 以 称 作 万 能 博弈 
(universal gambling) 。 我 们 注意 到 所 有 赌注 的 比例 之 和 满足 
Dola) = DAKO < > 24) =O<1 (14-77) 
z z p: pk 
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他 并 不 是 将 所 有 资金 都 押 进 去 。 为 了 简单 起 见 , 假定 他 将 剩 下 的 钱 扔 掉 。 例 如 , 假设 序列 为 x = 
0110, 下 注 在 该 序列 上 的 比例 为 68(0110), 那么 所 得 到 的 相对 收益 总 量 应 该 是 由 265(z) = 246 
(0110) 加 上 他 在 所 有 前 四 位 与 x 相同 的 赌注 5(0110…) 赢 得 的 总 量 。 

于 是 , 我 们 有 了 如 下 的 定理 ， 

定理 14.9.1 一 个 赌 民 使 用 万 能 博弈 在 一 个 序列 上 获得 的 相对 收益 的 对 数值 与 该 序列 的 复 
杂 度 之 和 永远 不 会 小 于 这 个 序列 的 长 度 。 用 公式 表示 为 

logS(x) + K(x)21(x) | (14-78) 
注释 ”这 是 第 6 章 中 的 博弈 守恒 定理 W” + H= lem HAM. 
证 明 : 直接 从 万 能 博弈 5(x)=2-*(*) 可 以 得 到 该 证 明 过 程 。 这 是 因为 


S(z) = Dala) D 22K (14-79) 

其 中 , 记号 x De kre 是 x HMR, AWARE BER. 口 
该 定理 可 以 从 多 个 方面 来 理解 。 对 于 具有 有 限 科 尔 莫 区 罗 夫 复杂 度 的 序列 z 来 说 , 对 于 所 有 L, 

Slayer r) S2 K@ 一 20 (14-80) 


由 于 2! 是 在 / 次 公平 机 会 收益 率 的 博弈 中 可 以 赢得 的 最 大 相对 收益 ,所 以 这 个 方案 确实 渐 近 地 
接近 于 事先 知道 序列 的 方案 。 例 如 , 如 果 你 知道 rmm or, 其 中 ;是 "的 二 进 制 展开 中 的 
数 , 则 对 所 有 的 x， 相对 收益 将 是 S, = SC 2") 222" “。 

如 果 该 二 元 串 由 一 个 参数 为 p 的 伯 努 利 过 程 生成 的 , 那么 

SCX 0X, 2277X, -2er ~ crag n= Hyp) ~ 2) (14-81) 

这 样 的 增幅 与 第 6 章 中 介绍 过 的 当 赌 民 在 事先 已 经 充分 了 解 了 分 布 的 条 件 下 所 达到 的 增长 率 是 
相同 的 (在 一 阶 近 似 意义 下 )。 

从 这 些 例子 中 我 们 可 以 看 出 , 随机 序列 的 万 能 博弈 确实 是 渐 近 地 接近 了 使 用 真实 分 布 的 先 
验 知识 的 策略 。 


14.10 RER 


在 科学 研究 的 许多 领域 中 , 在 观察 数据 的 各 种 各 样 的 解释 中 做 出 选择 是 非常 重要 的 。 在 选 
择 之 后 , 我 们 还 希望 设计 一 个 置信 水 平 来 界定 那些 伴随 已 经 被 推断 出 的 定律 得 到 预测 。 例 如, 假 
设 在 有 记录 的 历史 中 太阳 每 天 都 升 起 的 假设 下 , 拉 普 拉 斯 曾 考 虑 过 太阳 明天 再 升 起 的 概率 。 拉 
普 拉 斯 的 解决 方法 是 基于 太阳 升 起 是 服从 一 个 未 知 参数 9 的 Bernoulli( 6) 过程 的 假设 。 他 假定 8 
是 单位 区 间 上 的 均匀 分 布 。 利 用 观察 到 的 数据 ， 他 计算 了 太阳 明天 将 再 升 起 的 后 验 概 间 满足 
P(X = 11X, =1X = 1X =D 
P(X, = 1,X, = 1,X,1= 1°, Xi = D 

P(X, = 1,X,-1 = RERA = 1) 








1 
f +1d0 
= 全 (14-82) 
| rd 
0 
= zil + 5 (14-83) 


这 是 他 提出 的 已 知 从 第 1 天 到 第 n 天 太阳 都 升 起 的 条 件 下 , 第 n+ 1 天 太阳 再 升 起 的 概率 。 
使 用 科 尔 莫 艾 罗 夫 复杂 度 以 及 普 适 概 率 的 思想 , 可 以 给 出 该 问题 的 另 一 种 解答 。 基 于 普 适 
概率 计算 到 目前 为 止 已 经 观察 到 的 序列 中 出 现 了 = 次 1 的 条 件 下 ， 随后 一 个 仍然 是 1 的 概率 。 
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事件 “下 一 个 符号 仍然 是 1” 的 条 件 概 率 就 是 n +1 长度 的 序列 中 全 部 都 是 1 的 序列 的 概率 除 以 如 
下 两 个 概率 的 乘积 : 所 有 长 度 为 n 的 序列 中 全 部 位 置 上 都 是 1 的 片段 的 概率 与 长 度 为 1 的 片段 
中 出 现 1 的 概率 。 最 简单 的 程序 拥有 最 大 的 概率 ,因此 , 我 们 可 以 用 程序 “永远 输出 1” 的 概率 来 
通 近 “下 一 位 是 1” 的 概率 。 也 就 是 说 

Spay) = pd") = ¢ >0 (14-84) 


估计 下 一 位 是 0 的 概率 更 困难 些 。 由 于 输出 170… 的 任意 程序 提供 了 对 ”的 一 种 描述 , 它 的 长 度 
至 少 应 为 K(n)( 对 大 多 数 的 n，K(n)~~logn + O(loglogn))。 因 此 , 若 忽略 掉 二 阶 项 , 我 们 可 得 





Bp(1"0y) ~ p(1"0) x2 ~ L (14-85) 
于 是 , 观察 到 下 一 位 是 0 的 条 件 概率 为 
n p170) 1 
poli = G0) 4 pd) ven td (14-86) 
这 与 拉 普 拉 斯 得 出 的 结果 p(011") =1/(n + DA. 489 


上 述 论点 只 是 “ 奥 克 姆 剃刀 "的 一 个 特殊 情形 ， 奥 克 姆 剃刀 是 管理 科学 研究 的 一 个 普遍 原则 ， 
即 根据 复杂 度 来 权衡 所 有 可 能 的 解释 。 奥 克 姆 居士 威廉 姆 曾 说 过 :“Nunquam ponendaest pluralitas 
sine necesitate"， 即 解释 不 应 该 被 放大 到 超过 必要 性 [$16]。 作 为 本 节 的 结尾 , 我 们 选择 与 观测 数 
据 相符 的 最 简单 的 解释 。 例 如 , 接受 广义 相对 论 比 接受 万 有 引力 定律 的 修正 因子 c/r( 用 来 解释 
水 星 的 近日 点 运动 ) 更 容易 。 这 是 因为 相对 于 “ 打 过 补丁 ”的 牛顿 定律 而 言 , 广义 相对 论 用 更 少 的 
假设 解释 了 更 多 的 东西 。 


14.11 科 尔 莫 戈 罗 夫 复杂 度 与 普 适 概 率 


现在 来 证 明科 尔 莫 戈 罗 夫 复杂 度 与 普 适 概率 之 间 的 一 个 等 价 关 系 。 首 先 , 重复 几 个 基本 
定义 。 


K(x)= min Ip) (14-87) 
Py(x)= >> 2°) (14-88) 
pU (paz 


定理 14.11.1(K(z) 和 log p EM 对 所 有 字符 事 ,必然 存在 一 个 与 所 有 工 无 关 的 


常数 c, 使 得 、 
2-K( ECPI lr) L27 E (14-89) 


FH, Bx 的 普 适 概率 本 质 上 被 它 的 科 尔 莫 久 罗 夫 复杂 度 决 定 了 。 
注释 这 意味 着 K(z) 和 log 万 rz] 作为 通用 复杂 度 的 测度 的 地 位 是 同等 的 。 因 为 
K (2) -ce <log p SK) (14-90) 
回忆 关于 两 个 不 同 的 计算 机 所 定义 的 复杂 度 Ku 和 Ky’, 只 要 |Ku (zx) - Ku-(zx)| 有 界 , WAE 
们 是 本 质 上 等 价 的 两 个 复杂 度 的 测度 。 定 理 14.11.1 揭示 了 K(x) 和 log (Cz) 是 两 个 本 质 上 等 
价 的 复杂 度 的 测度 。 
注意 到 在 科 尔 莫 荚 罗 夫 复杂 度 中 , K(z) 与 log poy RAS EB, HOODS 


log 5 的 关系 这 两 者 之 间 存 在 显著 的 相似 性 。 在 信息 论 中 , 理想 的 香农 码 的 长 度 分 配 !(z)= (490 








A 
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| log sis; bas teams H(X)。 而 在 科 尔 莫 苞 罗 夫 复杂 度 理 论 中 ,理想 的 描述 长 


BE log tz) 与 K(X) 几 乎 相等 。 因 此 ,log 是 在 算法 环境 和 概率 环境 中 z 的 描述 复杂 度 的 


自然 概念 。 

式 (14-90) 中 的 上 界 明显 可 以 从 定义 推出 , 但 是 要 证 明 下 界 相当 困难 。 由 于 存在 无 限 多 输出 
的 程序 , 该 结果 是 非常 令 人 不 好 接受 。 从 任何 程序 出 发 , 添加 一 些 不 相关 的 指令 来 拉 长 该 程序 是 
一 种 可 行 的 方法 。 该 定理 证 明了 虽然 存在 无 限 多 个 这 样 的 程序 , 但 是 , 普 适 概率 本 质 上 取决 于 最 
大 概率 2-K(*)。Pu (xz) 越 大 , M K(xz) 越 小 。 反 之 亦 然 。 

然而 , 用 另外 一 种 方法 寻找 上 界 会 显得 容易 接受 一 些 。 考 虑 任何 关于 字符 串 的 可 计算 的 概 
率 密度 函数 p(x). 使 用 该 密度 函数 , 可 以 构造 出 一 个 关于 信 源 的 香农 一 费 诺 码 (5.9 节 ), 然后 通 


过 相应 的 码 字 描 述 每 一 个 申 , 其 中 码 字 的 长 度 为 iog zee 因此 , 对 于 任意 可 计算 的 分 布 , 可 以 


用 不 超过 log ES + c 比特 的 长 度 构造 一 个 串 的 描述 , log ES + c 就 是 关于 科 尔 莫 戈 罗 夫 复杂 
度 K(z) 的 一 个 上 界 。 即使 Pu (z) 不 是 一 个 可 计算 的 概率 密度 函数 , 我 们 仍然 可 以 用 如 下 所 述 的 
相当 复杂 的 树 结构 程序 来 巧妙 处 理 这 个 问题 。 
(定理 14.11.1) 的 证 明 : 第 一 个 不 等 式 是 简单 的 。 令 p 是 关于 z 的 最 短程 序 。 则 
Pulz) = 5 Qe) >20 = 2-K(z) (14-91) 


pill (p)=x 
这 正 是 我 们 想 要 证 明 的 结论 。 
我 们 可 以 将 第 二 个 不 等 式 改写 为 


K(2)<be pr t: (14-92) 


在 该 证 明 的 目的 是 找到 一 个 描述 具有 高 的 Pu ROAR x 的 短程 序 。 一 个 粗浅 的 想法 是 采用 
基于 Pu (zx) 的 某 种 赫 夫 曼 编 码 , 但 由 于 Px(z) 不 能 有 效 地 计算 ， 从 而 , 利用 赫 夫 曼 编 码 的 程序 
是 不 可 能 在 计算 机 上 实施 的 。 类 似 地 , 利用 香农 一 费 诺 码 的 过 程 也 不 能 实施 。 然 而 , 如 果 我 们 获 
得 香农 - 费 诺 编码 树 , 那么 , 我 们 可 以 搜索 该 树 中 的 节点 重 构 该 字符 串 。 这 是 下 面 的 树 结构 程序 
的 基础 。 

为 了 克服 Pu(z) 的 不 可 计算 性 的 困难 , 使 用 一 种 改进 的 方法 。 该 方法 试 着 直接 构造 一 棵 码 
树 。 该 方法 与 赫 夫 曼 编码 不 同 , 它 在 最 小 期 望 码 字 长 度 的 意义 下 不 是 最 优 的 。 但 该 方法 已 经 足够 


好 地 支持 我 们 导出 一 个 码 使 得 关于 z 的 每 个 码 字 的 长 度 都 不 超过 log Cz) 的 固定 倍数 。 


在 讨论 证 明 的 细节 之 前 , 先 概括 一 下 我 们 的 方法 。 我 们 想 以 这 样 一 种 方式 构造 一 棵 码 树 BR 
让 概率 越 高 的 字符 串 对 应 于 高 度 越 低 的 节点 。 由 于 我 们 不 能 计算 字符 串 的 概率 ,因而 没有 串 对 
应 的 树 的 高 度 的 先 验 知识 。 取而代之 , 我 们 逐一 地 将 x 分 配 到 树 的 节点 上 ， 随 着 我 们 对 Pule) 
的 估计 的 改进 , 将 x 分 配 到 离 根部 越 来 越 近 的 节点 上 。 我 们 希望 计算 机 能 够 改造 这 个 树 , 并 且 使 
用 改造 后 的 树 上 对 应 于 字符 串 x 的 最 低 节 点 来 重 构 该 字符 串 。 

现在 考虑 由 程序 和 它们 对 应 的 输出 所 构成 的 集合 |(p ,z+)}。 我 们 试 着 将 集合 中 的 元 素 分 配给 
该 树 。 但 是 我 们 立即 遇 到 一 个 问题 : 一 个 给 定 的 字符 串 存在 无 限 多 个 对 应 的 程序 , 我 们 没有 足够 
多 的 低位 置 的 节点 。 然 而 , 如 我 们 将 要 证 明 的 那样 , 如 果 将 程序 -输出 的 清单 条 理化 , 我 们 能 够 


定义 一 个 更 加 容易 管理 的 清单 分 配 到 该 树 上 。 下 面 我 们 证 明 关 于 z 的 长 度 为 log itz) 的 程序 
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的 存在 性 。 

树 结构 程序 :对 于 通用 计算 机 Z4 , 使 用 14.8 节 中 所 述 的 技巧 模拟 所 有 的 程序 。 列 出 所 有 的 二 
元 程序 : 

A,0,1,00,01,10,11,000,001,010,011,. (14-93) 

然后 , 在 第 一 轮 中 让 计算 机 执行 A 的 一 个 时 钟 周期 。 在 下 一 轮 中 , 让 计算 机 执行 A 的 两 个 时 钟 
周期 和 程序 0 的 两 个 时 钟 周期 。 在 第 三 轮 中 , 让 计算 机 执行 前 三 个 程序 中 每 一 个 的 三 个 时 钟 周 
期 , 如 此 下 去 。 以 这 种 方式 , 计算 机 将 最 终 运 行 所 有 可 能 的 程序 , 并 且 运 行 它 们 的 次 数 越 来 越 多 。 
因此 , 如 果 一 个 程序 能 停止 , 它 将 最 终 被 发 现 停止 。 我 们 使 用 这 个 方法 来 产生 所 有 按 顺序 停止 的 
程序 的 清单 , 此 处 , 它们 与 伴随 的 输出 一 起 停止 。 对 于 每 个 程序 和 伴随 的 输出 形成 的 对 (ps, xi)， 
我 们 来 计算 m, 它 是 对 应 于 Pu(z) 的 现行 估计 的 一 种 选择 。 具 体 地 讲 ， 


m=| log Ft | (14-94) 
其 中 
Pulz) = D278) (14-95) 
( 


Pr) :T= Ti 


注意 , 在 满足 2, = 2 的 次 数 & TEILE Pula) 和 Pul) 我们 现 已 经 构造 了 一 棵 树 。 添 加 
三 元 组 (pz, ,ny)( 关 于 所 有 可 以 停止 的 程序 ) 的 清单 之 后 , 将 部 分 三 元 组 映射 到 一 棵 二 元 树 的 
节点 上 。 为 了 达到 构造 的 目的 , 必须 确保 所 有 对 应 于 特定 zi 的 n; 是 可 区 分 的 。 为 确保 这 点 , 我 
们 从 三 元 组 清单 中 删除 所 有 这 样 的 多 余 的 三 元 组 : 它们 与 某 个 三 元 组 具有 相同 zx 和 nn。 这 将 确保 
该 树 的 每 一 层 , 至 多 存在 一 个 节点 对 应 于 一 个 给 定 的 z。 

设 {(p' ,zn'):i=1,2,3,…| 表 示 新 的 清单 。 将 新 清单 中 的 三 元 组 (pi ,zx 和,n'4) 分 配给 层 
n+1 上 第 一 个 空 着 的 节点 。 只 要 一 个 节点 被 分 配 ， 所 有 它 的 后 代 就 不 能 再 被 分 配 (这 保证 了 分 
配 是 无 前 缀 的 。)。 

我 们 举 一 个 例子 来 说 明 这 一 过 程 : 

(pi x1, n1) = (10111,1110,5), n1=5, 这 是 由 于 Py (xy) 227 =2°5 
(p2,x2;n2) =(11,10,2), n:=2, 这 是 由 于 Pu (zx2)22 he) =27? 
(p3,23,n3) =(0,1110,1), n3=1, 这 是 由 于 Pu (x3) 227? 4271) =275 +2712! 
(pas z4, n4) = (1010,1111,4), n4=4, 这 是 由 于 Pula) >27 =274 
(ps,x5,n5) = (101101,1110,1), ns=1, 这 是 由 于 Pyles) 2271+2754+2 S27! 
(£61676) = (100,1,3), ne=3, 这 是 由 于 Pular Z2) =27? 
: (14-96) 
我 们 注意 字符 串 x = (1110) 出 现在 清单 中 的 1, 3 和 5 位 置 , 但 是 ns = xs。 而 且 两 个 位 置 上 对 应 
的 概率 估计 值 Pw(1110) 没 有 显著 的 差异 , 所 以 (ps,xs,ns) 不 能 够 幸免 被 删除 。 因此 精 选 后 的 清 
单 变 成 
(p’'1,x1,71)= (10111,1110,5) 
(pa,x 2,712)=(11,10,2) 
(p’3,2°3,n'3) = (0,1110,1) 
(p'4,x'4,n 4) = (1010, 1111,4) 
(p'5,2'5,n 5) =(100,1,3) 


(14-97) 
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[493| ”由 精 选 后 的 清单 到 树 的 节点 的 分 配 如 图 14-3 所 示 。 
在 该 例子 中 , 我 们 能 够 在 第 n + 1 层 中 找 出 可 以 分 配 三 元 组 的 节点 。 接 下 来 证 明 总 是 存在 
足够 多 的 节点 使 得 分 配 能 够 实施 。 能 够 执行 三 元 组 到 节点 的 分 配 的 充分 必要 条 件 是 Kraft 不 等 式 


成 立 。 


(PiX) X LIO 






(PX pn) 49-1114 
(P5,%55M5),X5=1 
(PXA) X510 


(P3-X3A3}x3=110 


图 14-3 节点 的 分 配 


接 下 来 只 考虑 精 选 的 清单 (14-97), 所 以 略 去 各 个 元 素 右 上 角 的 撤 号 。 首 先 来 观察 Krat 不 等 . 
式 中 的 无 穷 求 和 , 然后 , 根据 输出 字符 串 将 其 分 组 求 和 |: 
Sparen = 2 Brow (14-98) 


zeo 1p EREE 


于 是 , 单独 考虑 内 层 求 和 如 下 


494 2 = 271 >) a (14-99) 
:= kirE 
<27! (2HP (x) + 2LicgPry (7)1-1 + 2LæPy (e)l -2 +) (14-100) 
9-iyun - 
2-taeery(!(y4 tat +) (14-101) 
= 27 IgibePyy (219 (14-102) 
< Pulz) (14-103) 


其 中 式 (14-100) 成 立 是 因为 在 每 一 层 上 至 多 存在 一 个 节点 能 使 得 它 输 出 一 个 特定 xz。 更 确切 地 
讲 , 在 精 选 的 清单 中 , 关于 特定 的 输出 串 < 的 所 有 n 都 是 不 同 的 整数 。 因 此 ， 


Shaw) < X) D rad x D Pule) <1 (14-104) 

从 而 , 我们 可 以 构造 出 一 樟树 使 得 其 节点 标记 为 三 元 组 。 
如 果 我 们 获得 了 如 上 所 构造 的 树 , 那么 沿 着 通 往 能 够 输出 z 的 最 低 高 度 的 节点 的 路 径 , 很 容 
易 识别 出 一 个 给 定 的 =。 该 节点 记 为 (由 构造 法 知 1G) <le p +2). 为 了 在 程序 中 利用 


这 棵 树 输出 zx, 指定 p 并 且 命 令 计算 机 执行 前 面 所 有 程序 的 模拟 。 则 计算 机 将 构造 出 如 上 所 描 
述 的 树 , 并 且 等 待 特殊 的 节点 p 的 分 配 。 由 于 计算 机 执行 与 发 送 器 相同 的 构造 方法 , 所 以 节点 p 
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最 终 将 被 分 配 。 这 时 , 计算 机 输出 分 配给 该 节点 的 xz 后 停止 。 
利用 计算 机 重 构 z 是 一 个 行 之 有 效 的 (有 限 的 , 机 械 的 ) 程 序 。 然 而 , 没有 行 之 有 效 的 程序 来 
寻找 对 应 于 z 的 最 低 高 度 的 节点 。 我 们 所 经 证 明 的 仅 是 存在 一 棵 (无 限 的 ) 树 , 在 它 的 第 


| log Fk | +1 层 上 有 一 个 节点 对 应 z。 但 这 已 达到 了 我 们 的 目的 。 


关于 该 例子 , x = 1110 的 描述 是 通 往 节点 (p;,xz3,n3)( 即 01) 的 路 径 , 以 及 z= 1111 的 描述 
就 是 路 径 00001。 如 果 要 描述 字符 串 1110, 那么 命令 计算 机 进行 (模拟 ) 树 构造 方法 直到 节点 01 
被 分 配 。 然 后 , 要 求 计算 机 执行 对 应 于 节点 01 的 程序 ( 即 p3)。 该 程序 的 输出 就 是 所 需要 的 字符 
H z=1110。 

构造 z 的 程序 的 长 度 本 质 上 是 为 了 描述 树 中 对 应 于 z 的 最 低 高 度 节点 p 的 位 置 所 需要 的 长 
度 。 所 以 , 关于 z 的 程序 的 长 度 就 是 !( 户 ) +c, 其 中 


TOEI eas [+ (14-105) 
因此 ，z 的 复杂 度 满足 


Ka epil: (14-106) 
这 样 我 们 就 证 明了 该 定理 。 


14.12 科 尔 莫 戈 罗 夫 充分 统计 量 


假设 我 们 有 一 个 源 自 Bernoulli(9) 过 程 的 样本 序列 , 那么 由 该 序列 的 随机 性 会 引起 什么 规律 
或 多 大 的 偏差 ? 解决 该 问题 的 方法 之 一 是 求 出 科 尔 莫 戈 罗 夫 复杂 度 Kiln), 我 们 已 知 它 大 约 
为 nHo(90) +logn + c。 HF, 对 于 09 关 1 人 2, 这 个 值 远 小 于 n, 因此 , 我 们 断定 z 具有 一 定 结构 而 
不 是 随机 服从 Bernoulli( $ ) 的 。 但 这 个 结构 是 什么 ? 要 探索 该 结构 的 第 一 反应 就 是 系统 地 检查 
关于 2" 的 最 短程 序 p* 。 但 p* 的 最 短 描述 大 约 与 p* 本 身 一 样 长 ; 否则 , 我 们 可 以 进一步 压缩 x" 
的 描述 , 这 与 加 "的 最 小 性 相 矛 盾 。 所 以 , 这 种 企图 是 无 果 而 终 的 。 

但 我 们 在 对 “用 p* 描述 zx"” 的 方式 的 检查 过 程 中 受到 了 启示 , 得 到 了 一 种 好 的 手段 。 程 序 
“The sequence has k 1’s; of such sequences, it is the i th” 是 关于 Bernoulli(9) 序 列 一 阶 近 似 为 最 优 
的 。 我 们 注意 该 程序 是 一 个 两 步骤 描述 法 , 该 序列 的 所 有 结构 都 在 第 一 步骤 中 刻画 。 而 且 , z 是 
最 复杂 的 , 被 放 在 第 一 步骤 中 。 第 一 步骤 即 & 的 描述 , 需要 log(n +1) 比 特长 度 并 且 定义 集合 S 


= [x€ 10,1)": D2) = 对。 第 二 步 对 虽然 需要 log| S| =log( ”~nHo(z,)~nHol9) 比 特 的 长 朗 ， 


但 不 需要 揭示 x" 的 任何 特别 之 处 。 

对 于 一 般 的 序列 , 通过 寻找 一 个 包含 2" 的 简单 集合 S 来 模仿 这 个 过 程 。 接 下 来 用 log| S| 比 
特 给 出 S 中 的 zx" 的 一 个 描述 。 首 先 给 出 包含 可 以 用 不 超过 k 比特 描述 的 x” 的 最 小 集合 的 定义 。 

定义 ”二 元 串 cE 10,1}" HARER KERRAK, (in) EK 

K,(2"\|n)= ,min, log| S| (14-107) 

resco 

集合 S 是 可 以 用 不 超过 & 比特 进行 描述 且 包 含 z 的 最 小 集合 。 我 们 用 记号 (Pp,n)=S 表 
示 在 通用 计算 机 MU 上 运行 程序 p, 输入 数据 n 后 将 输出 集合 S 的 示 性 函数 。 

定义 ”对 于 一 个 给 定 的 小 常数 c, Oe "是 满足 


D 
oO 
Un 


n 





~x 
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K,(2"|n)+k<K(2"|n) +e (14-108) 
的 最 小 的 &。 设 S** 是 对 应 的 集合 ，P*"* 是 输出 S** 的 示 性 函数 的 程序 。 则 我 们 称 p** 是 关于 
zx” 的 一 个 科 尔 英 戈 罗 夫 最 小 充分 统计 量 。 
考虑 描述 集合 S* 的 程序 p HWE 
K,(2"|n) + k=K(2"|n) (14-109) 
从 xz” 关于 条 件 S* 的 条 件 复杂 度 最 大 的 意义 角度 讲 , 所 有 的 程序 p 都 是 “充分 统计 量 ”。 而 最 小 
充分 统计 量 是 最 短 的 “充分 统计 量 ”。 
上 面 定义 中 的 等 式 中 忽略 了 一 个 依赖 于 计算 机 UU 的 大 常数 。 此 时 有 “对 应 于 最 小 的 &，x” 的 
两 步骤 摘 述 效果 与 z 的 最 佳 的 单 步 段 描述 一 样 好 。 第 二 步骤 仅 提供 了 zx” ERA S** 内 的 标记 ; 
如 果 在 给 定 的 集合 SP r 是 条 件 最 复杂 的 , 第 二 步骤 只 需要 Ki (x”|n) 比 特 的 长 度 。 因 此 ， 
集合 S** 刻 画 了 x" 内 部 所 有 的 结构 。 在 S “内 关于 z 的 其 余 的 描述 本 质 上 就 是 对 字符 串 内 部 
随机 性 的 描述 。 因 此 ，S “或 p"* 称 作 关于 zx" 的 科 尔 莫 区 罗 夫 充分 统计 量 。 
用 这 种 方式 定义 的 统计 量 类 似 于 数理 统计 中 定义 的 充分 统计 量 。 在 数理 统计 中 , 统计 量 T 
称 作 关 于 一 个 参数 9 是 充分 的 , 是 指 在 该 充分 统计 量 给 定 的 情况 下 , 样本 的 分 布 与 参数 独立 ， 即 
0+ T(X)>X (14-110) 
按 顺 序 构 成 一 个 马尔 可 夫 链 。 而 对 于 科 尔 莫 戈 罗 夫 充 分 统计 量 , 指 的 是 程序 p KTS r" 的 
“结构 "是 充分 的 ; 2” 的 描述 的 剩余 部 分 本 质 上 独立 于 x” 的 “结构 ”"。 特 别 是 , 在 给 定 S"* 的 条 件 
下 ,x” 是 最 复杂 的 。 
结构 函数 的 一 个 典型 图 像 如 图 14-4 所 示 。 当 &=0 时, 可 以 被 描述 的 惟一 集合 是 整个 
0,11=， 所 以 对 应 的 集合 大 小 的 对 数值 是 n。 随 着 我 们 增加 &, 集合 的 大 小 迅速 下 降 直 到 
k+ K,(2"\n)*K(2"|n) (14-111) 
随后 , k 每 增加 1 比特 , 集合 减少 一 半 , 并 且 沿 着 斜率 为 -1 的 直线 下 降 直 到 有 = K(x"|n)。 对 
FkRSK(2"|n), 可 以 被 描述 的 且 包 含 z" 的 最 小 集合 是 单 点 集 |x”"}, 因此 Ki (zx”|n)=0。 
我 们 接 下 来 举 一 些 例子 来 说 明 这 个 概念 。 
1. Bernoulli(9) 序 列 。 考 虑 一 个 长 度 为 n 的 样本 序列 , 假设 它 服从 待定 参数 9 NAS AF 


列 。 如 同 例 14.2 所 讨论 的 (图 14-5), 可 以 用 nH( E )+ 方 logn 比特 来 描述 该 序列 (用 两 


步 对 法， 第 一 步 用 logn 比特 来 找 述 ,然后 用 log( ” | 比特 来 描述 每 一 个 具有 4 个 1 的 序 


K(x) K(x) | 


n 











~ 


ke K(x) Htogn nHolp}+ $logn k 


图 14-4 ARRRP REARS 14-5 ”关于 伯 努 利 序 列 的 科 和 尔 莫 戈 罗 夫 充分 统计 量 
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列 )。 BÆ, 我 们 可 以 用 更 简短 的 一 步 描述 。 代 之 对 & 进行 精确 描述 , 我 们 将 的 值 域 划 


分 为 若干 个 匣子 ， 在 精度 为 Va 的 意义 下 , MKE og 比特 来 描述 &。 此 时 ， 
我 们 描述 所 有 那些 型 与 k 的 苗子 相同 的 真实 序列 。 由 斯 特 林 (Stirling) 公 式 可 推出 , 包含 


rhag r= ea 磋 <i) 个 1 的 序列 集合 的 大 小 为 nt) + o(n)。 虽 然 总 描述 长 


n 





k 
度 仍 为 xj + 去 logn + oln), 但 是 科 尔 英 久 罗 大 充 分 统计 时 的 撕 述 长 度 此 时 为 & 


Ay 
n Ogn o 


2. 来 自 一 个 马尔 可 夫 链 的 样本 。 与 上 一 个 例子 的 脉络 完全 相同 ,考虑 一 个 服从 一 阶 二 元 马 
尔 可 夫 链 的 样本 。 同 样 ， 在 这 种 情况 下 ，p"“ 将 对 应 于 描述 该 序列 的 马尔 可 夫 型 (序列 中 
00, 01, 10 和 11 出 现 的 次 数 )， 它 承载 着 序列 中 所 有 的 结构 信息 。 该 描述 的 剩 下 部 分 将 
是 给 出 该 序列 在 由 所 有 的 具有 相同 马尔 可 夫 型 的 序列 构成 的 集合 中 的 标记 。 从 而 , 在 这 
种 情况 下 ,&* ~2( 十 logn ) = logn 这 对 应 于 在 适当 精度 下 描述 条 件 联合 型 的 两 个 元 素 (该 
条 件 联合 型 的 其 他 元 素 可 以 由 这 两 个 来 决定 )。 

. 蒙 幸 而 莎 。 考 虑 在 白色 背景 上 的 一 个 灰色 圆 构 成 的 图 像 。 这 个 加 
的 灰 度 不 是 均匀 的 ， 而 是 服从 于 参数 为 9 的 一 个 伯 努 利 分 布 。 如 
图 14-6 所 示 。 对 于 该 情形 , 最 佳 的 两 步 又 描述 法 是 : 首先 描述 加 
的 尺寸 和 位 置 以 及 它 的 平均 灰 度 水 平 ,然后 描述 在 所 有 具有 相同 
灰 度 水 平 的 圆 的 集合 中 该 圆 的 标记 。 假 设 一 幅 ”像素 的 图 像 ( 即 
Vax nA n+1 个 可 能 灰 度 等 级 , UR)? 可 识别 的 圆 。 图 14.6 BRES 


因而 , 此 时 有 "~ 这 logn。 


14.13 ”最短 描述 长 度 准则 


当 我 们 需要 描述 来 自 某 个 未 知 分 布 的 数据 时 ， 奥 克 姆 剃刀 的 一 个 自然 推广 就 提 到 了 议事 日 
程 上 了 。 令 X1,X2,…,X, 是 独立 同 分 布 且 服从 概率 密度 (zx) 的 。 假 设 不 知道 p(z) 的 具体 形 
R, RAR p(z)EP, 即 在 某 个 概率 密度 函数 类 之 中 。 给 定数 据 ,我 们 可 以 据 此 估计 PP 中 最 适合 
于 该 数据 的 概率 密度 函数 。 对 于 简单 类 PP( 比 如 其 仅 含有 限 多 个 概率 密度 函数 ), 那么 该 问题 变 成 
一 个 平凡 的 问题 , 用 最 大 似 然 程序 ( 即 , R PE P 使 得 了 (X1,…,X,) 最 大 ) 就 足够 了 。 但 是 , 如 果 
PP 中 元 素 足够 多 , 就 会 有 过 分 拟 合 数 据 的 问题 。 例 如 , WR X, XX, 为 连续 型 随机 变量 , H 
PP 是 一 切 概率 分 布 之 集 , 那么 ,已 知 Xi, Xo Xa 最 大 似 然 估计 子 则 是 一 个 在 每 个 质点 都 取 二 
重量 的 分 布 。 显 然 , 该 估计 子 与 实际 观测 数据 太 紧凑 以 至 于 没有 捕捉 到 潜在 的 分 布 的 结构 的 影 
子 。 

为 了 获得 该 问题 的 近似 解 , 许 许多 多 的 方法 都 被 尝试 过 。 最 简单 的 情形 就 是 假定 数据 服从 
某 个 含 参 变 量 的 分 布 (比如 正 态 分 布 )， 而 基于 观测 数据 对 分 布 中 的 参数 进行 估计 。 为 了 检验 该 
方法 的 有 效 性 ,首先 得 检验 这 些 数据 是 否 “有 点 " 正 态 分 布 的 样子 。 如 果 数 据 通过 检测 , 我 们 才能 
用 此 方法 描述 该 数据 。 更 一 般 的 方法 是 采用 最 大 似 然 估计 并 且 将 其 光滑 化 得 到 一 个 光滑 的 密度 
函数 。 当 拥有 足够 的 数据 量 和 适当 的 光滑 条 件 ,给 出 原始 密度 函数 的 一 个 好 的 估计 是 可 行 的 。 
这 种 处 理 过 程 称 为 核 密度 估计 。 


U 
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， 但 是 ， 科 尔 莫 区 罗 夫 复杂 度 理论 (或 者 科 尔 莫 戈 罗 夫 充分 统计 量 ) 提 示 我 们 一 个 另类 的 处 理 
程序 : 搜索 pC 使 得 下 面 等 式 最 小 化 : 


B 1 
1 (14-112) 

这 是 对 于 数据 的 两 步骤 描述 的 长 度 。 此 处 , 我 们 首先 描述 分 布 p, 然后 在 给 定 该 分 布 的 条 件 下 构 

造 香农 码 并 用 log ph oe A 比特 来 描述 该 数据 。 该 程序 就 是 所 谓 最 小 描述 长 度 (IMDL) 准 


则 的 特殊 情形 。(MDL) 准 则 叙述 如 下 : 当 数 据 与 选择 模式 给 定之 后 ， 选择 一 个 模型 使 得 对 于 该 模 
型 的 描述 长 度 加 上 对 数据 的 描述 长 度 之 和 尽 可 能 短 。 
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习题 


14.1 两 个 序列 的 科 尔 莫 戈 罗 夫 复杂 度 。 设 z,yE l0,1}*, WEH K(z,y)<K(x2)+K(y) + co 
14.2 和 的 复杂 度 

(a) 证 明 K(n) 志 logn + 2loglogn + co 

(b) HEB K (1, + n2)<K(m,) + K(n2) + co 

(c) 给 出 n 和 n 是 复杂 的 , 但 它们 的 和 是 相对 简单 的 一 个 例子 。 
14.3 BR, ZEH OM 1 aR nxn 点 阵 zx。 于 是 工具 有 ?2 比特 。 


Eroe 


试 求 科 尔 莫 戈 罗 夫 复杂 度 K(z1n)( 在 一 阶 近 似 意义 下 )， 如 果 
(a) z 是 一 条 水 平 线 。 
(b) z 是 一 个 正方 形 。 
(c) z 为 两 条 直线 的 并 , 其 中 一 条 垂直 , 另 一 条 水 平 。 
14.4 计算 机 会 使 炉 减 少 吗 ? 将 一 个 随机 程序 P 输入 一 台 通用 计算 机 , 那么 对 应 的 输出 序列 的 


HEA >? 具体 地 , 设 X=U(P), 其 中 也 是 Bernouli( 3) 序列 。 这 里 的 二 元 序列 X 或 者 
未 定义 , 或 者 在 10,1|* 之 中 。 设 昌 (X) 为 X HERM Ie H(X)=0. FÆ, REH 
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14.5 


14.6 


14.7 


14.8 


14.9 


算 机 可 将 无 意义 转变 成 有 意义 , 但 输出 序列 的 箭 仍然 为 无 穷 大 。 

在 一 台 计算 机 旁 的 猴子 。 假 定 一 个 随机 程序 被 融入 一 台 计算 机 。 粗 略 估计 该 计算 机 输出 
以 下 序列 的 概率 : 

(a) 以 0" 为 前 缀 的 任意 序列 。 

(b) A mre, 为 前 级 的 任意 序列 , 其 中 x; 表示 «的 二 进 制 展开 中 的 第 i 位。 

(c) 以 0"1 为 前 缀 的 任意 序列 。 

(d) 以 wwz wo, 为 前 缀 的 任意 序列 。 

(e) 四 色 定 理 的 一 个 证 明 。 

科 尔 莫 况 罗 夫 复杂 度 与 三 元 程序 。 假 定 一 个 通用 计算 机 UU 的 输入 程序 是 10,1,2}“ PROF 
列 (三 元 输入 ), 且 MU 的 输出 也 是 三 元 的 。 令 K(z|1(z))=, min,_L(p)。 证 明 

(a) K(xz"|n)<nt+ceo | 

(b) {zr€E10,1}*:K(z"|n)<k|<3*。 其 中 ,#1{ * 上 是 集合 的 元 素 个 数 。 

大 数 定律 。 使 用 如 同 习 题 14.6 中 的 三 元 输入 和 输出 方案 , 简要 讨论 如 果 一 个 序列 z 是 算 
法 随机 的 , 即 如 果 K(all(x2)~l(x)), WE x PHO, 1 和 2 的 比例 均 接 近 于 1/3。 不 妨 考 
虑 使 用 斯 特 林 近 似 公 式 n! ~ne)" o 

图 像 的 复杂 度 。 考 虑 (一 个 nxn 网 格 的 ) 两 个 二 元 子 集 A 和 B。 例如 ， 





根据 K(A|n)#l K(B| n), 求 下 列 情形 中 给 出 的 复杂 度 的 上 界 和 下 界 : 

(a) K(A‘|n) 

(b) K(AUB|n) 

(c) K(ANMB|n) 

随机 程序 。 假定 一 个 随机 程序 (其 中 的 字符 是 独立 同 分 布 服从 字符 集 上 的 均匀 分 布 ) 输 入 
到 最 新 的 计算 机 中 如 果 出 乎 意料 地 输出 1M2 的 二 进 制 展开 中 的 前 ”位 ， 那么 粗略 估计 下 
一 个 输出 位 与 142 的 展开 式 中 的 对 应 位 相 一 致 的 概率 是 多 少 ? 


14.10 人 面 与 花瓶 移动 幻觉 


(a) 现 有 mx m 网 格 上 的 一 个 模式 ， 它 关 于 通过 网 格 中 心 的 垂直 轴 镜 像 对 称 并 且 由 水 平 
线段 构成 。 试 估计 这 个 模式 的 复杂 度 的 一 个 上 界 。 
(b) 如 果 图 像 有 一 个 网 格 不 同 于 上 面 描述 的 模式 , 则 它 的 复杂 度 K 会 如 何 变化 ? 
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14.11 


14.12 





科 尔 莫 艾 罗 夫 复杂 度 。 假 设 ”为 给 定 的 充分 大 的 整数 。 令 所 有 的 长 方形 与 框架 的 底 边 平 
行 。 
(a) Æ nxn 网 格子 上 两 个 长 方形 之 并 的 (最 大 ) 科 尔 莫 戈 罗 夫 复杂 度 是 多 少 ? 


(b) 两 个 长 方形 仅 在 某 个 顶点 处 相交 时 的 科 尔 莫 苹 罗 夫 复 杂 度 是 多 少 ? 


(c) 如 果 两 个 具有 相同 的 未 知 形状 时 , 科 尔 莫 戈 罗 夫 复 杂 度 是 多 少 ? 

(d) 如 果 两 个 具有 相同 的 未 知 面积 时 , 科 尔 莫 戈 罗 夫 复杂 度 是 多 少 ? 

(e) 两 个 长 方形 的 并 的 最 小 科 尔 莫 戈 罗 夫 复杂 度 是 多 少 ? 即 最 简单 的 并 是 多 少 ? 

(f) 在 一 个 nxn 格子 上 所 有 图 形 ( 不 一 定 必须 是 长 方形 ) 的 (最 大 ) 科 尔 莫 戈 罗 夫 复杂 度 
是 多 少 ? 

加 密 文 本 。 假 设 英语 文本 z 通过 一 个 转换 加 密 器 也 就 是 (A-Z, 包括 空格 )27 个 字母 的 字 


”和 母 表 上 1-1 的 再 分 配 ) 加 密 成 为 yo BAXE x" 的 科 尔 莫 戈 罗 夫 复杂 度 是 K(x”) =F 


14.13 


14.14 


(这 在 英语 文本 中 是 大 致 正确 的 。 用 编程 语言 程 来 说 , 假如 现在 用 一 个 27 字符 的 语言 ， 
取代 两 个 字符 语言 , 就 等 于 使 用 27 进 制 蔡 换 2 进 制 。 于 是 , 最 短程 序 的 长 度 , 具体 地 讲 


就 是 一 个 长 度 n 的 英语 文本 的 最 短程 序 的 长 度 , ORT.) 

(a) 加 密 地 图 的 科 尔 莫 荚 罗 夫 复杂 度 是 多 少 ? 

(b) 估计 加 密 文本 y 的 科 尔 莫 艾 罗 夫 复杂 度 。 

(c) 如 果 你 期 望 能 对 y 进行 译 码 ,n 必须 多 大 ? 

AREF RAH RK. EER n 的 科 尔 莫 总 罗 夫 复杂 度 K(n)。 如 果 对 于 菜 个 特定 的 
整数 ny ARR RABE KK(n1) 较 低 , 那么 , 关于 整数 ni +k 的 科 和 尔 莫 戈 罗 夫 复 
RREK (nitk) Kn BERKER? 

大 数 的 复杂 度 。A(z) 是 这 样 一 些 正 整数 x 的 集合 ,存在 终止 程序 p 输出 的 长 度 不 超 
过 比特 。B(n) 是 A(n) 的 补 集 ( 即 B(n) 是 这 样 的 正 整数 x 之 集 ， 即 任何 一 个 终止 程序 
在 n 比特 之 前 都 得 不 到 x)。 令 M(n) 是 A(n) 中 的 最 大 整数 , 而 SC) AB B(n) 中 的 最 小 
整数 。 那 么 回答 下 列 问题 : 

(a) PURER RERE KMn) (大 约 ) 是 多 少 ? 

(b) K(S(n))( 大 约 ) 是 多 少 ? 
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(c) M(n) 和 S(n), 哪 一 个 大 ? 
(d) 给 出 M(n) 的 合理 下 界 和 S(z) 的 合理 上 界 。 


历史 回顾 


科 尔 莫 戈 罗 夫 复杂 度 的 原创 思想 是 由 Kolmogorov[321,322]，Solomonoff[ 504] 以 及 Chaitin 
[89] 几 乎 同时 独立 地 提出 来 的 。 科 尔 莫 戈 罗 夫 的 学 生 们 进一步 发 展 了 这 些 思 想 ， 如 Martin-Lof 
[374] 给 出 算法 随机 序列 概念 和 关于 随机 性 的 算法 检验 的 定义 , 另外 Levin 与 Zvonkin[353 JERR 
了 普 适 概率 的 思想 以 及 它 与 复杂 度 之 间 的 关系 。Chaitin 在 他 的 一 系列 论文 [901 一 [92] 中 推广 了 
算法 复杂 度 与 数学 证 明之 间 的 联系 。C. P. Schnorr 在 [4661 一 [468] 中 研究 了 随机 性 的 普 适 性 概 
念 并 且 将 其 用 在 博弈 中 。 

科 尔 莫 戈 罗 夫 结构 函数 的 概念 是 由 科 尔 莫 戈 罗 夫 本 人 在 1973 年 的 塔林 (Tallin) 会 议 上 的 演 
讲 中 定义 的 , 但 是 相关 的 结果 并 未 发 表 。V’ yugin 在 [549] 中 将 其 完善 , 并且 证 明了 在 K,(2"|n) 
=n- k, kK n HELF, 存在 一 些 相当 奇异 的 序列 2", 要 揭示 他 们 的 结构 进展 极其 得 组 
慢 。Zurek[606] - [608] 通 过 讨论 科 尔 莫 戈 罗 夫 复杂 度 的 物理 结果 ,提出 了 关于 麦克 斯 韦 妖 

507] (Maxwell’ s demon) 和 热力 学 第 二 定律 的 基础 问题 。 

Rissanen 的 最 小 描述 长 度 (MDL) 原 理 在 本 质 上 非常 接近 于 科 尔 莫 成 罗 夫 充分 统计 量 。 

Rissanen 在 [445, 446] 的 研究 中 发 现 , 低 复杂 度 的 模型 可 以 产生 具有 高 度 似 然 性 的 数据 。Barron 


与 Cover 在 [32] 中 讨论 了 使 得 K(f) + log 本 元 坟 ) 达 到 最 小 的 密度 函数 也 是 密度 西数 的 一 致 估计 。 
有 关 度 量 复杂 度 的 不 同方 式 的 非 技 术 性 介绍 可 见 Pagels[ 412] 所 著 的 一 本 思维 启发 式 的 书 。 
此 方面 的 另外 的 参考 书 也 可 以 参看 Cover 等 人 的 论文 [412], 从 中 可 以 找到 科 尔 莫 戈 罗 夫 对 于 信 
息 论 和 算法 复杂 度 的 贡献 。 对 于 该 领域 较 全 面 的 书 , 包括 对 算法 与 自动 机 分 析 理 论 的 应 用 , 当 属 
Li 与 Vitanyi 的 专著 [354]。 涵盖 面 更 大 的 著作 应 该 是 Chaitin[ 86,93j]。 





Bis 网 络 信息 论 


能 够 同时 容纳 众多 发 送 器 与 接收 器 的 系统 必然 囊括 了 通信 和 问题 中 的 许多 新 要 素 : 干扰 、 协 作 与 反 
馈 。 它 们 都 是 网 络 信息 论 中 的 重要 议题 。 对 于 一 般 网 络 通信 问题 , 我 们 容易 将 其 抽象 为 : 在 给 定 若干 
发 送 器 、 若 干 接收 器 以 及 描述 网 络 中 的 相互 干涉 与 噪声 干扰 效应 的 信道 转移 矩阵 的 条 件 下 , 确定 该 信 
道 是 否 能 够 传输 这 些 信 源 信号 。 该 问题 涉及 到 分 布 式 信 源 编码 (数据 压缩 ) 以 及 分 布 式 通信 ( 找 出 网 络 
的 容量 区 域 )。 该 问题 至 今 还 未 彻底 解决 , 因此 , 本 章 中 我 们 只 考虑 各 种 各 样 的 特殊 情况 。 

计算 机 网 络 系统 、 卫 星 网 络 系统 与 电话 网 络 系统 都 是 大 型 通信 网 络 系统 的 例子 。 即 使 在 单 
个 计算 机 内 部 , 也 有 许多 的 部 件 之 间 需 要 互相 交流 。 一 套 完 整 的 网 络 信息 理论 必 将 对 通信 与 计 
算 机 网 络 的 设计 产生 广泛 的 影响 。 

假设 有 个 站 点 要 通过 公用 的 信道 与 某 个 公用 的 卫星 交流 信息 。 如 图 15-1 所 示 。 这 称 为 
多 接 入 信道 (multiple-access channel) 。 为 了 将 信息 传输 到 接收 器 , 各 发 送 器 之 间 应 当 如 何 协 作 ”? 
同时 可 达 的 通信 码 率 是 多 少 ? 当 发 送 器 间 存 在 干扰 时 , 对 总 的 通信 码 率 该 做 什么 样 的 限制 ? 这 
是 目前 我 们 了 解 得 最 彻底 的 多 用 户 信道 , 并 且 上 述 问 题 都 有 满意 的 解决 方案 。 

与 此 相对 比 , 我 们 来 考虑 一 个 逆向 问题 ; 某 电 视 台 发 送信 息 到 m 台电 视 机 ,如 图 15-2 所 示 。 
发 送 器 应 当 将 信息 如 何 编码 才能 使 得 同一 个 信号 适用 于 不 同 的 电视 机 ? 到 底 需 要 多 大 的 码 率 才能 [509] 
将 信息 传送 到 不 同 电视 机 ? 对 于 这 种 信道 , 仅 在 一 些 特定 的 情形 下 上 述 问题 才 有 解决 方案 。 





回 [=| 


图 15-1 多 接 人 信道 图 15-2 广播 信道 


还 有 其 他 一 些 信道 , 如 中 继 信道 (此 处 假定 仅 有 一 个 信 源 和 一 个 发 送 目的 地 , 但 是 有 一 个 或 
多 个 同时 行使 接收 与 发 送 功能 的 中 继 站 , 实现 信 源 与 目 s s 
的 地 间 的 通信 )、 FIRE I AAE AE E E ° 


° 
(Xi Y) 


线 ) 或 双 程 信道 (两 对 发 送 器 与 接收 器 互相 传输 信息 )。 


关于 这 些 信 道 的 可 达 通 信 码 率 问 题 以 及 合适 的 编码 策 
略 问题 , 我 们 仅 略 知 一 二 。 Ss Js gee 
所 有 这 些 信 道 均 可 以 考虑 为 由 m 个 互通 信息 的 节 AN O Yo) 
点 所 组 成 的 通信 网 络 模型 的 特殊 情形 , 如 图 15-3 所 示 。 。 510 


在 每 个 瞬时 时 刻 , 第 i 个 节点 发 送 某 字符 x; 取决 于 其 自 图 15.3 通信 网络 
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身 需 要 传输 的 信息 以 及 过 去 从 该 节点 接收 到 的 字符 。 同 时 发 送 字符 (zi，zz，…，,zom) 会 使 接收 器 收 到 
服从 条 件 概 率 分 布 ply”, y®, wee, yr, zz, ee, LENLE Y, Yz, 0, Yn), 其 中 
p(: | ) 表 示 存 在 于 网 络 中 的 噪声 与 干扰 的 效应 。 如 果 pOl ) 取 值 仅 为 0 或 1, 那么 网 络 就 变 成 确定 
性 的 。 

与 网 络 中 的 一 些 节点 相伴 随 的 是 随机 数据 信 源 ,网 络 将 它们 从 一 些 节点 传输 到 另外 一 些 节 
点 。 若 信 源 是 独立 的 , 那么 节点 发 送出 的 消息 也 是 独立 的 。 然 而 , 为 了 使 理论 完全 具有 普遍 意 
X, 必须 允许 信 源 是 相关 的 。 试 问 , 如何 利用 相关 性 的 特点 来 精简 待 传输 信息 的 数量 ? 当 已 知 信 
源 的 概率 分 布 与 给 定 信道 转移 函数 后 , 在 允许 适当 的 失真 下 , 是 否 可 以 通过 该 信道 发 送 这 些 信 源 
信号 并 且 在 目的 地 将 这 些 信 源 信号 恢复 出 来 ? 

我 们 接 下 来 考虑 网 络 通信 的 一 系列 特殊 情形 , 考虑 当 信道 无 噪声 且 无 干扰 时 的 信 源 编码 问 
题 。 此 时 , 问题 简化 为 找 出 与 每 个 信 源 相 适 应 的 一 组 码 率 , 在 传输 目的 地 可 以 以 低 误差 概率 (或 
适当 的 失真 ) 将 所 需 信 源 信号 译 码 。 分 布 式 信 源 编码 的 最 简单 情形 就 是 Slepian-Wolf 信 源 编码 。 
此 时 有 两 个 信 源 ,必须 分 开 编码 但 要 在 公共 的 节点 上 同时 译 码 。 继 而 我 们 推广 该 理论 , 考虑 两 信 
源 中 只 有 一 个 需要 在 目的 地 恢复 的 情况 。 

关于 网 络 的 信息 流 理论 在 电路 理论 和 管道 中 水 流 这 样 的 领域 内 取得 了 令 人 满意 的 结果 。 例 
如 , 对 于 如 图 15-4 所 示 的 单 信 源 与 单 接收 器 管道 网 
络 , 从 A 到 B 的 最 大 信息 流 可 以 由 Ford-Fulkerson 定 
理 很 容易 地 算出 。 假 设 各 边 的 容量 为 图 中 所 示 的 C;， 
那么 显然 , 穿 过 每 个 割 集 的 最 大 信息 流 不 可 能 大 于 该 
市 集中 所 有 割 边 的 容量 的 总 和 。 因 此 , FANA RR 
的 最 大 流 中 的 最 小 值 就 是 网 络 容 量 的 上 界 。Ford 





Fulkerson 定理 [214j] 证 明了 该 容量 是 可 达 的 。 C=min{ CtC,, CytCatCy, Cyt Cs, CitCs} 
网 络 中 的 信息 流 理论 并 不 真 像 水 管 中 的 水 流 那 va 15-4 KBEN 


样 简单 。 虽然 可 以 证 明 穿 过 割 集 的 信息 流 的 码 率 有 

LR, 但 该 上 界 在 通常 情形 下 是 不 可 达 的 。 只 有 中 继 信道 以 及 串联 信道 等 特殊 网 络 才能 满足 这 
种 简单 的 最 大 流 最 小 割 的 解释 。 在 寻求 一 般 理 论 的 过 程 中 , 我 们 将 面临 另外 一 个 敏感 的 问题 , 那 
就 是 没有 信 源 信道 分 离 定理 。 关 于 该 问题 , 15.10 节 会 作 简 得 的 介绍 。 将 分 布 式 信 源 编码 与 网 络 
信道 编码 结合 在 一 起 形成 一 套 完整 理论 依然 是 我 们 追求 的 长 远 目标 。 

在 下 一 节 中 , 我 们 列举 网 络 信息 论 中 的 一 些 经 典 高 斯 信道 。 强 烈 的 物理 背景 注定 了 高 斯 信 
道具 有 具体 且 容 易 解释 的 答案 。 稍 后 我 们 证 明 关 于 联合 典型 性 的 一 些 基本 结论 , 它们 将 用 来 证 
明 多 用 户 信息 论 的 诸多 定理 。 然 后 , 详细 考虑 各 种 各 样 的 具体 问题 一 一 多 接 人 信道 、 相 关 信 源 的 
编码 (Slepian-Wolf 数据 压缩 )、 广 播 信道 、 中 继 信道 、 具有 边 信息 的 随机 变量 的 编码 以 及 具有 边 信 
息 的 率 失真 等 问题 。 在 结束 对 网 络 中 信息 流 的 一 般 理论 的 介绍 之 际 , 我 们 还 要 多 说 几 句 。 在 该 
领域 中 , 还 有 许多 未 解决 的 问题 , 因此 , 根本 没有 (至 少 还 没 找到 ) 一 套 完整 的 信息 网 络 理论 。 即 
使 将 来 能 够 发 现 这 样 的 理论 , 也 可 能 会 因为 其 太 复杂 而 不 易 执行 。 当 然 , 这 样 的 理论 还 是 可 以 告 
诉 通信 设计 者 如 何 向 最 优 看 齐 , 也 可 以 启发 设计 者 获得 一 些 提高 通信 速率 的 手段 。 


15.1 高 斯 多 用 户 信道 


高 斯 多 用 户 信道 揭示 了 网 络 信息 论 的 一 些 重要 特性 。 我 们 在 第 9 章 中 获得 的 关于 高 斯 信道 
的 直观 印象 正好 为 本 节 奠 定 了 基础 。 在 此 , 我 们 仅 给 出 如 何 建立 高 斯 多 接 人 信道 、 广 播 信道 、 中 
继 信道 以 及 双 程 信道 的 容量 区 域 的 关键 思想 而 不 加 证 明 。 对 应 于 离散 无 记忆 信道 的 所 有 编码 定 
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理 , 我 们 可 以 平行 地 得 到 相应 的 网 络 编码 定理 , 它们 的 证 明 将 在 本 章 的 后 面 几 节 中 给 出 。 
最 基本 的 信道 是 具有 输入 功率 为 P, 噪声 方差 为 N 的 时 间 离 散 可 加 高 斯 白 噪声 信道 ,其 数 
学 模型 为 
Y; = X;+ Z,, i=1,2, (15-1) 
Ht, ZA iid. 的 高 斯 随机 变量 序列 , 其 均值 为 0, FRAN. WS K=(X,, X., °°, X, ) 满 
足 功 率 约束 条 件 


TDXISP (15-2) 
香农 容量 C 是 互信 息 T(X; Y) 在 所 有 满足 EX<P 的 随机 变量 序列 X 集合 上 的 最 大 值 , 按 下 式 
( 见 第 9 章 ) 给 出 
C= Flog(1 + £) 比特 /传输 (15-3) 
本 章 , 我 们 仅 讨 论 时 间 离 散 无 记忆 信道 ; 所 得 结果 可 以 推广 到 时 间 连 续 的 高 斯 信道 。 
15.1.1 单 用 户 高 斯 信道 
首先 复习 一 下 第 9 章 中 的 单 用 户 高 斯 信道 。 这 里 Y=X +Z, HRB RK bloga + 


P/ZN)。 选 定 功率 为 P 的 优秀 (2 下 ,1 nB. ERA, , 2 下 | 中 选取 下 标 wo (ei LRN 
中 的 第 w EFX w). BMWS Y=X(w)4+ ZZ, 找 出 与 Y 最 接近 的 码 字 的 下 标 包 。 
4n BRAN, 误差 概率 Pr(w 隆 名 ) 可 任意 小 。 从 联合 典型 的 定义 可 看 出 , 该 最 小 距离 译 码 方 案 
本 质 上 等 同 于 找 出 码 簿 中 与 接收 到 的 向 量 Y 构成 联合 典型 的 码 字 。 
15.1.2 m 个 用 户 的 高 斯 多 接 入 信道 

考虑 m TREE, 每 个 发 送 器 的 功率 均 为 P, 设 


Y= Sx+2 (15-4) 
c(È)= 4iog(1+ £) (15-5) 


表示 信 噪 比 为 P/N 的 单 用 户 高 斯 信道 容量 。 高 斯 信道 的 可 达 码 率 区 域 可 有 下 述 方程 组 决定 的 简 
单 形式 : 


r< c(È) (15-6) 
R+R < c(48 (15-7) 
R+ R +R, < c(3F) (15-8) 
(15-9) 

DR < c(F) (15-10) 


注意 到 当 所 有 的 码 率 都 相同 时 ,所 有 别 的 不 等 式 可 归结 为 最 后 一 个 不 等 式 。 

此 时 , 我 们 需要 m 个 码 短 , 其 中 第 i 个 码 夭 具有 2 中 个 功率 为 P 的 码 字 。 传 输 方式 很 简单 ， 
每 个 独立 的 发 送 器 只 要 从 其 自身 的 码 夭 中 任意 选取 一 个 码 字 , 然后 所 有 用 户 同时 传输 这 些 向 量 。 
接收 器 观测 到 的 是 这 些 码 字 与 高 斯 噪声 乙 的 玲 加 。 

最 优 的 译 码 方法 就 是 在 m 个 码 短 中 各 自 找 出 一 个 码 字 使 得 这 些 向 量 之 和 在 欧 几 里 得 距离 下 
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SYS. A(R, Ro, R, ARELRAB KARA, 那么 当 ”趋向 于 无 穷 时 ， 误 差 概率 趋 
向 于 0。 

注释 ”所 有 用 户 的 码 率 之 和 C(mP/AN) 将 随 m 趋 于 无 穷 , 这 是 该 问题 导出 的 一 个 令 人 回味 
的 事实 。 由 此 可 以 想到 , 对 于 有 m 个 功率 为 P 的 嘉宾 的 鸡尾酒 宴会 (外 界 噪声 N 存在 )， 当 嘉宾 
人 数 趋 向 于 无 穷 时 , 有 心 者 可 获得 的 信息 量 也 是 无 界 的 。 当 然 , 对 于 地 面 与 卫星 的 通信 , 也 有 类 
WHA. BR, 随 着 发 送 用 户 数目 mo, 相互 干扰 的 增加 并 未 对 接收 信息 造成 限制 。 

另 一 个 有 趣 的 事实 是 , 最 优 传 输 方案 并 不 涉及 到 时 分 多 路 复 用 。 事 实 上 , 每 个 发 送 器 在 任何 
时 间 都 占用 着 所 有 的 频带 。 
15.1.3 高 斯 广播 信道 

这 里 , 我 们 假设 有 功率 为 已 的 发 送 器 与 两 个 相隔 遥远 的 接收 器 , 其 中 一 个 接收 器 的 高 斯 品 
声 功率 为 Nj, 另 一 个 的 高 斯 噪声 功率 为 N,。 不 失 一 般 性 , RN <N, TE, 接收 器 Y, 比 接 
KE Yo 受 噪声 于 扰 小 。 信 道 模型 为 Y;=X+ZI; 与 Y,=X+Z,, 其 中 2 与 2Z; 为 任意 两 个 相关 
的 高 斯 随机 变量 , 方差 分 别 为 Ni 与 Nz。 发 送 器 希望 以 码 率 R 与 R, 分 别传 送 独立 的 消息 给 接 
WEE Y, 与 Y,。 

幸运 的 是 , 所 有 高 斯 广播 信道 均 属 于 15.6.2 节 要 讲 到 的 退化 广播 信道 类 。 特 别 地 , 我 们 发 
现 高 斯 广播 信道 的 容量 区 域 为 


Ri < c(x} (15-11) 


R,< c( Ne | (15-12) 
其 中 a WERE (O<aX<1), 是 为 了 实现 发 送 器 所 希望 的 以 牺牲 码 率 R 来 换取 R 的 目的 。 

为 了 对 消息 进行 编码 ,发送 器 需要 产生 两 个 码 夭 ,一 个 功率 为 oP 且 码 率 为 R1, 另 一 个 功率 
为 aP 且 码 率 为 R,, 其 中 Ri 与 R, 包含 在 上 述 的 容量 区 域 中 。 此 时 , 为 了 分 别 将 下 标 wE il, 
2,0, 2%} w€ 11, 2,…, 2 中 | 传输 给 Yi 与 了 2, 发 送 器 分 别 从 第 一 个 与 第 二 个 码 夭 中 取出 
码 字 XX(w1) 与 X(w,) 并 将 它们 至 加 。 然 后 , 将 个 加 的 字符 串通 过 该 信道 传输 出 去 。 

BFK, 接收 器 要 对 消息 译 码 。 首 先 考虑 较 差 的 接收 器 到 。 它 仅 需要 在 第 二 个 码 短 中 查找 
与 接收 到 的 向 量 Y, 最 接近 的 码 字 。 由 于 Yi 的 消息 对 于 Y, 来 说 是 噪声 ,因此 , 接收 器 Y, 的 有 
效 信和 号 相对 于 噪声 的 信 噪 比 为 aP/(aP + N,)。( 这 是 可 以 证 明 的 。) 

较 好 的 接收 器 Y, 会 先 译 出 Y, 所 对 应 的 码 字 入;， 它 之 所 以 可 以 这 样 做 是 因为 它 的 噪声 Ni 
较 低 。 它 从 Y 中 减 去 码 字 加 。 然 后 , 在 第 一 个 码 夭 中 寻求 与  - 况 最 接近 的 码 字 。 这 样 处 理 
可 以 使 得 结果 的 误差 概率 小 到 符合 事先 要 求 。 

退化 广播 信道 的 最 优 编码 的 意外 的 收获 是 : 较 好 的 接收 器 Yi 总 是 除了 获取 传输 给 自己 的 信 
息 之 外 , 还 顺便 获得 了 传输 给 Y, 的 信息 。 

15.1.4 高 斯 中 继 信 道 

对 于 中 继 信 道 , 它 有 发 送 器 X 与 最 终 的 目标 接收 器 Y。 为 了 讲解 方便 , 假设 只 有 一 个 中 继 

站 。 高 斯 中 继 信道 (如 图 15-31 所 示 ) 可 表达 为 
Y¥,=X+Z, (15-13) 
Y=X4+2Z2,+X,+Z, (15-14) 
其 中 , 21 与 Z, 为 两 个 独立 的 0 均值 高 斯 随机 变量 , 其 方差 分 别 为 Ni 与 Nz。 中 继 信 道 的 容许 编 
码 是 如 下 的 因果 序列 





Xi = fi( YY, Yi2，…， Yi;-1) (15-15) 
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如 果 诛 发 送 器 X 的 功率 为 P, 而 中 继 发 送 器 Xi 的 功率 为 Pi, 则 中 继 信 道 的 容量 为 


c(P+E, +2 2P), c(2)| 


C = max min N, + N; N, 


(al 


其 中 =1- a。 注 意 ,如 果 


(15-16) 





x >i (15-17) 
可 以 看 出 C= C(P/N1), 当 a=1 时 达到 该 容量 。 在 此 情形 下 ,经 过 中 继 传输 ,该 信道 似乎 是 无 
噪声 的 , 并 且 由 X 到 中 继 站 的 容量 C(P/AN1) 是 可 达 的 。 因 此 , 无 中 继 时 的 容量 CPAN, + 
Na)) 也 随 着 中 继 站 的 出 现 而 增加 到 C(P/AN1)。 对 于 充分 大 的 N,, 当 P1/Ns 之 PANI 时 , 我 们 可 
以 看 到 , 码 率 从 C(PAN, + N;)) 守 0 增加 到 了 C(P/N1)。 

考虑 分 组 传输 。 在 第 一 组 传输 中 , 设 Ri< C(aP/N1)。 此 时 需要 两 个 码 敌 , 第 一 个 码 短 中 有 
2 到 个 功率 为 oP 的 码 字 , 第 二 个 码 籍 中 有 2 个 功率 为 oP 的 码 字 。 为 了 创造 出 中 继 站 之 间 的 协 
作 机 会 , 需要 从 这 两 个 码 簿 中 连续 地 调用 码 字 。 首 先 从 第 一 个 码 簿 中 调 出 一 个 码 字 来 发 送 。 由 
于 R< C(aP/N1), 中 继 站 可 以 知道 该 码 字 的 下 标 , 但 是 目标 接收 器 却 无 法 确定 该 下 标 ， 因 为 它 
对 于 收 到 的 每 个 向 量 信号 进行 译 码 会 获得 一 个 含有 2"(R CPN Na) 个 可 能 码 字 的 清单 。 若 要 
准确 判定 该 下 标 , 还 需要 一 系列 的 计算 , 而 这 些 计算 又 牵涉 得 到 一 个 与 清单 编码 有 关 的 结果 。 

在 下 一 组 传输 中 , 发 送 器 与 中 继 站 希望 通过 协作 解决 接收 器 的 不 确定 性 ， 即 接收 器 因为 对 接 
收 到 的 字符 串 对 应 着 清单 中 的 多 种 可 能 而 不 能 确定 。 遗 憾 的 是 , 发 送 器 与 中 继 发 送 器 并 不 知道 
该 清单 是 什么 , 因为 他 们 根本 不 知道 接收 器 收 到 的 信号 Y。 为 此 , 它们 随机 地 将 第 一 个 码 夭 划分 
为 2"R 个 单元 使 得 每 个 单元 中 有 相同 数目 的 码 字 。 该 划分 对 于 中 继 发 送 器 ,接收 器 与 发 送 回 三 方 
都 公开 。 发 送 器 与 中 继 发 送 器 找 出 该 码 字 在 第 一 个 码 钴 的 划分 中 所 处 的 单元 ,同时 两 者 进行 协 
作 , 将 第 二 码 夭 中 对 应 于 单元 编号 的 那个 码 字 发 送出 去 , 即 X 与 Xi 发 送 了 同一 个 指示 的 码 字 。 
当然 ,中 继 发 送 器 必须 调制 该 码 字 使 其 满足 功率 限制 为 P;。 同 时 发 送 了 它们 的 码 字 。 这 时 需要 
注意 的 一 个 重点 是 ,由 于 中 继 发 送 器 与 原 发 送 器 传输 的 协作 信息 是 同步 发 送 的 , 因此 , 接收 器 了 
看 到 的 是 一 个 功率 为 (V aP +V P1)? 的 县 加 信和 号 。 

然而 , 原 发 送 器 在 第 二 组 的 工作 并 没有 结束 , 它 还 要 再 从 第 一 码 短 中 选取 一 新 的 码 字 , 将 其 
“照章 ?与 从 第 二 个 码 德 中 取出 的 协作 码 字 琶 加 , 并 将 该 玲 加 后 的 序列 经 信道 发 送出 去 。 

在 第 二 组 传输 中 , 最 终 接收 器 Y 的 接收 工作 包括 : 首先 通过 找 出 第 二 码 籍 最 接近 的 码 字 来 
发 现 协助 码 字 的 下 标 ;其 次 ,从 接收 到 的 序列 剔除 这 个 最 接近 的 码 字 , 并 且 计 算出 2 所 个 下 标的 
清单 , 使 其 对 应 于 第 一 码 短 中 所 有 这 样 的 码 字 , 它们 可 能 已 被 送 到 第 二 组 。 

接 下 来 就 该 是 最 终 目标 接收 器 来 完成 关于 第 一 组 传输 中 发 送出 的 第 一 个 码 夭 中 的 码 字 的 计 
算 工作 。 当 它 取 得 所 有 可 能 是 第 一 组 传输 发 送出 的 码 字 清单 之 后 , 检查 清单 与 划分 的 特定 单元 
(已 经 从 第 二 组 传输 协助 的 中 继 传输 中 知道 了 该 单元 的 编号 ) 相 交 的 情况 。 假 定 已 经 选取 了 码 率 
与 功率 , 使 得 交集 中 以 高 概率 仅 含 1 个 码 字 , 那么 , 这 个 惟一 的 码 字 就 作为 在 获得 第 一 组 发 送出 
的 信息 条 件 下 Y 的 估计 。 

现在 进入 一 种 稳定 的 状态 。 在 每 一 组 新 的 传输 中 , 发 送 器 与 中 继 站 可 以 协作 解决 前 一 次 贸 
下 的 清单 的 不 确定 性 。 另 外 , 发 送 器 在 传输 第 二 个 码 钞 中 码 字 的 同时 将 来 自 第 一 码 链 中 的 新 信 
BAWL, 然后 传输 该 释 加 信息 。 接 收 器 总 是 落后 一 组 , 但 当 发 送 的 传输 组 数 足够 多 时 ,这 并 
不 影响 总 体 接收 速率 。 

15.1.5 ”高 斯 干扰 信道 
干扰 信道 有 两 个 发 送 器 与 两 个 接收 器 。 发 送 器 1 希望 对 接收 器 1 传递 信息 ,并 不 关心 接收 器 2 
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会 收 到 或 者 泄密 。 发 送 器 2 与 接收 器 2 也 同样 如 此 。 每 个 信道 之 间 相 互 干扰 。 该 信道 如 图 15-5 所 
示 。 它 并 非 真 正 的 广播 信道 ,因为 对 每 个 发 送 器 , 仅 有 一 个 目标 接收 器 ; 也 不 是 多 接 入 信道 , 因为 
每 个 接收 器 仅 对 相应 的 发 送 器 发 送 的 信息 感 兴趣 。 对 于 对 称 干扰 的 情形 , 我 们 有 


Yi = Xi +aX, +Z, (15-18) 
Y, = X + aX,+Z, l (15-19) 

其 中 Z,, Z 是 两 个 独立 的 服从 N (0,N) 的 随机 变量 。 该 信道 即使 在 高 斯 情形 下 也 没有 一 般 解 。 但 是 
很 明显 , 无 论 是 在 高 干扰 还 是 在 无 干扰 情形 下 , 信道 的 容量 Z,~N(0,N) 
区 域 都 是 相同 的 。 

要 获得 该 结论 , 需要 产生 两 个 功率 为 已 且 码 率 为 XY Y, 
CCP/ZN) 的 码 筹 。 每 个 发 送 器 从 其 码 籍 中选 出 一 个 码 字 并 a 
将 其 发 送 。 假 如 干扰 a 满足 C(a?PAP+N))>C(P/ g 
N), 那么 第 一 个 发 送 器 完全 清楚 第 二 个 发 送 器 所 用 的 下 二 


标 , 因为 它 可 以 通过 搜索 与 它 收 到 的 信号 最 接近 的 码 字 这 
种 寻常 的 方法 来 找到 该 下 标 。 当 它 找到 该 信号 之 后 , 可 以 
从 接收 到 的 波形 中 减 去 该 信号 。 于 是 , 它 与 自己 的 发 送 器 图 15-5 高 斯 干扰 信道 
之 间 形 成 了 一 个 净化 了 的 信道 。 然 后 , 它 从 发 送 器 使 用 的 码 簿 中 搜索 出 最 接近 的 码 字 ,并 宣布 该 
码 字 就 是 发 送 器 1 所 发 送 的 码 字 。 
15.1.6 高 斯 双 程 信道 

双 程 信道 与 干扰 信道 非常 类 似 , 但 具有 以 下 附加 规定 : 发 送 器 1 与 接收 器 2 相连 , 发 送 器 2 与 
接收 器 1 相连 , 如 图 15-6 所 示 。 因 此 , 发 送 器 1 可 由 接收 器 2 以 
前 接收 到 的 信号 决定 下 一 步 该 发 送 什 么 。 该 信道 展现 了 网 络 信息 
论 的 另 一 个 基本 特征 : 反馈 。 反 馈 使 发 送 器 可 互相 使 用 彼此 的 部 
分 信息 而 实现 相互 协作 。 A Pie alku 7a) 

一 般 情 形 下 的 双 程 信道 容量 区 域 还 不 知道 。 该 信道 是 香农 
[486] 首 先 提出 的 , 他 获得 了 该 区 域 的 上 下 界 (参见 习题 15.15)。 
对 高 斯 信道 , 这 两 个 界 重合 , 因此 , 高 斯 信道 的 容量 区 域 已 为 人 
们 所 知 。 事 实 上 , 高 斯 双 程 信道 可 以 分 解 为 两 个 独立 信道 。 图 15-6 双 程 信道 

BP, 与 P, 分 别 为 发 送 器 1 与 2 的 功率 ,Ni 与 N 为 两 信道 的 噪声 方差 。 那 么 码 率 Ri< 
C(P,/N,)5 R,< C(P;/N2) 是 可 达 的 , 这 可 以 利用 在 干扰 信道 中 描述 的 技术 来 实现 。 此 时 产生 
两 个 码 率 分 别 为 R 5 R 的 码 短 。 发 送 器 1 发 送 第 一 码 德 中 的 码 字 。 接 收回 2 接收 到 两 个 发 送 
器 发 送 的 码 字 以 及 噪声 的 琶 加 信和 号。 只 要 简单 地 从 春 加 信号 中 删除 发 送 器 2 发 送 的 码 字 , 就 可 
获得 一 个 等 同 于 直接 从 发 送 器 1 到 接收 器 2 的 净化 了 的 信道 ( 仅 有 方差 为 Ni 的 噪声 )。 于 是 , 双 
程 高 斯 信道 分 解 为 两 个 独立 高 斯 信道 。 但 是 , 这 并 不 代表 一 般 的 双 程 信道 。 一 般 情 况 下 , 两 个 发 
送 器 之 间 存在 着 一 种 平衡 关系 , 使 得 它们 不 可 能 同时 以 最 优 码 率 传送 信息 。 


15.2 联合 典型 序列 


我 们 已 通过 考虑 多 用 户 高 斯 信道 , 预示 了 网 络 中 容量 的 一 些 结论 。 本 节 我 们 给 出 详尽 的 分 析 ， 
首先 需要 给 出 第 7 章 中 证 明 过 的 联合 AEP 的 推广 形式 , 来 证 明 网 络 信息 论 中 的 定理 。 联 合 渐 近 均 
分 性 质 (AEP) 将 使 我 们 能 够 计算 本 章 中 考虑 到 的 各 种 编码 方案 的 联合 典型 译 码 的 误差 概率 。 

IX, Xa e, X ) 为 有 限 个 离散 随机 变量 的 集合 , 其 固定 联合 分 布 为 p(x1, £2, re), 
(xy, Ers, Be EMIX MAX Xho HS 为 这 些 随 机 变量 的 一 个 有 序 子 集 ， 并 考虑 5S 的 次 


Z, ~N (0, N) 
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独立 重复 S= (Sj,S,,…,S,), 其 中 所 有 S;= S。 于 是 


pris=sl = [[ PriS; = s} ses (15-20) 
其 中 S 表 示 中 全 体 随机 变量 所 对 应 的 字母 表 的 乘积 空间 。 例 如 , 若 S= (X , X), MISA) xX, A 
PrlS = s} = Pri(X;, X)) = (x, x,)} (15-21) 
= TI play, xi) (15-22) 

为 明确 起 见 ， 有 时 用 XOR S。 由 大 数 定律 ,对 随机 变量 的 任意 子 集 S， 
~ Tlogp(S, $2, S) =- Llogp(S) ~ HS) (15-23) 


其 中 对 于 2* 个 子 集中 的 任何 一 个 子 集 S11X1，X,,…，Xi| ,收敛 性 以 概率 1 成立 。 
定义 ”随机 向 量 (Xi, …, XOR e 典型 的 且 长 度 为 n 的 序列 (x, w …, 总) 的 集合 AP 定义 为 
AW(XD, xX”, ee, X®) 


= AP = | (x, x, X)! - Tlogp(s) ~ H(s)| <e, VSCIXY, XP, .…., x} | 
(15-24) 
其 中 $i= (£ii wy Lx) s Si=S 对 所 有 :; 成 立 。 
A AW” (S) Rae AM 限制 在 S 上 。 因 此 , 若 S=(X1,X,), 则 我 们 有 
A (XI, X2) = LE xX): 














一 二 logp(x， x) 一 H(X,, X>) < E, 
-Tiogp(x) - H(X,)] < e, 
- + Nog (x) ~ H(X)|< el (15-25) 
定义 ”我 们 将 用 记号 2,22" RAR n 足够 大 时 ， 
Tloge, - 3 <e (15-26) 
定理 15.2.1 对 任意 e>0, 对 足够 大 的 ?， 
1. P(AY?(S))S1-e, VSSIX®, XP, =, XM], (15-27) 
2. sE AM”) (S) => p(s) HAAS) tO (15-28) 
3. | A(S) | 27S) #28) | (15-29) 
4. HS, SEXP, XP, e, XY], Bl, EAS, S2), H 
p(s | s) ate 2-"(H(S1S,)+20) (15-30) 
HEAR: 
1. 由 AM” (OKELAR GERI. 
2. 由 AP (SHELE. 
3. 由 于 
1> >) p(s) (15-31) 
s€ A” (S) . 
> > g-n(H(S)+e) (15-32) 


se Ai” (S) 


un 


wn 





w 
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= | AP (S)12 "+ (15-33) 
Gn EBR, 我 们 可 得 出 

1-e< 2) p(s) (15-34) 

s€ A.” (S) 
< >> 2-n(H(S)-e) (15-35) 

sE A™(S) 
一 | A” (S) | 2-n(H(S)-e) (15-36) 


结合 式 (15-33) 与 式 (15-36), 对 于 充分 大 的 n, RATA | AL) (S) |120 20, 


4. Cs 2) EAP (S1, SEH, TTIR p(s) 2799, p(s, sy)=2 MHS S90, 


因此 , 





_ CS S2) , sn(H(S,1S)+2e) 
p(s 1s) = p(s) = 2 


下 面 的 定理 已 知 一 个 典型 序列 , 给 出 条 件 典 型 序列 数目 的 界 估计 。 


(15-37) 


EH 15.2.2 设 Si, S23 Xi, Xr, 0, Xi 的 两 个 子 集 。 对 任 给 e>0, ZR AM (S ls) KR 
示 与 特定 的 序列 8 构成 联合 e 典型 的 所 有 序列 Si BRS. PEAS), 那么 对 充分 大 的 n, 


我 们 有 
| A(S] | sy) | K 27H 5)+2e) 
以 及 
(1 = es)2"(HS4S -29 < D} p(s) | AL? (S11) | 
证 明 : 如 定理 15.2.1 的 第 3 MER, 我 们 有 
1> >) p(s!) 


5, €A0" (5,18) 

> >` 9- nl H(S, | S,)+2e) 
EA (5, 18) 

=| AW? (S | s2) | 2-n(H(S1S,)+2e) 


1-e< Dpy) >) plsils) 
S 


EA (S, 1s) 


< Jiss) 2 2-"08034S0)-26 
% 


s EAP (S is) 


= 2 p(s) | A(S; | gy) | 27S S20) 


(15-38) 


(15-39) 


(15-40) 
(15-41) 


(15-42) 


(15-43) 
(15-44) 


(15-45) 


5S 
要 计算 译 码 的 误差 概率 , 需要 知道 条 件 独立 序列 为 联合 典型 的 概率 。 设 Si1，S2 SH 
| 和 XD 中，… ,X01 的 三 个 子 集 。 记 S'1，S', 和 S 3 为 另外 三 个 随机 向 量 , 满足 在 给 定 S F 
S’, AS’, 条 件 独立 , 而 且 (S'1，S'2,S'3) 与 (S1,，S2，S3) 具 有 对 应 的 相同 的 两 两 边际 分 布 , 则 我 


们 有 如 下 关于 联合 典型 概率 的 结果 。 
定理 15.2.3 AM 表示 概率 密度 了 品 数 p(s1，s2，53) 的 典型 集 , FAS 


P(S1 = s, S2 = 8,S3= s) = TL plsi | s3i) p(s; | 53:) p(s3i) 
i=1 


PIS), Sz, S3) E€ A” | 二 2n(1(S1s s, | Si)+6e) 


(15-46) 


(15-47) 
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证 阴 : 为 了 避免 分 开 计 算 上 界 与 下 界 , 我 们 利用 式 (15-26) 中 的 记号 主 。 于 是 
P{(S;, S, S) € AM” } 


= >) pls) p(s:{s3) p(s) | 53) (15-48) 
(s,s SEA” 
二 | A™(S, ， So; S3) | 2-n(H(S,)te)9-n(H(S, |S,)42e)9-n(H(S,1S,)+2e) (15-49) 
= 27(H(S,, S,, S,)te)9~n(H(S,)+e)9—n(H(S,1S,)£2e)9—n( H(S,1S,)42¢) (15-50) 
= g-n(s,; S,|5,)+6e) (15-510 
利用 该 定理 , 我 们 将 根据 具体 情况 特别 地 选取 S, S 和 S;, 以 完成 本 章 中 的 各 类 有 关 可 达 
性 的 证 明 。 x 


15.3 ”多 接 入 信道 


多 接 人 信道 是 我 们 第 一 个 要 详细 考察 的 信道 。 在 该 情形 中 ,两 个 (或 更 多 ) 发 送 器 对 同一 个 
接收 器 发 送信 息 。 该 信道 如 图 15-7 所 示 。 具 有 许多 独立 地 面 站 的 人 造 卫 星 接收 器 , 或 者 一 群 手 
机 与 某 个 基站 的 通信 都 是 这 种 信道 的 最 典型 的 例子 。 我 们 可 以 看 到 发 送 器 不 仅 要 面 对 来 自 接收 
器 的 噪声 ,而 且 还 要 面 对 自 身 相 互 间 的 干扰 。 


m— & 
PO) Y — (P,P) 


W, 一 一 一 Y 


图 15-7 多 接 入 信道 


定义 ”高 散 无 记忆 多 接 入 信道 由 3 个 字母 表 X1, X SY, 以 及 概率 转移 矩阵 polr, DAR. 


定义 ”多 接 人 信道 的 ((2 灾 ,2 闻 :) ,nn ) 码 由 以 下 五 个 部 分 组 成 : 两 个 称 为 消息 集 的 整数 集 : 
Wi={1, 2，…,2m GW2= 11, 2, 0, 2), DPSS A 


X iW >a? (15-52) 
和 
X,:W,> 23 (15-53) 
以 及 一 个 译 码 函数 
g : Y” Wi x W, (15-54) 


该 信道 有 两 个 发 送 器 与 一 个 接收 器 。 发 送 器 1 从 集合 11, 2, °°, 2) WOME Pi W 
后 经 信道 发 送 对 应 的 码 字 。 发 送 器 2 工作 原理 类 似 。 假 设 乘 积 空间 )Wi xW: 上 的 消息 服从 均匀 
分 布 ( 即 消息 为 独立 等 可 能 的 ), 我 们 定义 ((2 吧 ,2 咪 :)，z2) 码 的 平均 误差 概率 如 下 : 


po) = IELA SOO Prig(¥") 关 (wi, w) | (wy, w) 被 发 送 | (15-55) 
1 2 W, 


w w JEW, 
定义 ”对 于 多 接 入 信道 , HEA 2R, 2%), n) Ta, 使 Po, 那么 称 码 率 对 
(RR!，R,) 关 于 该 信道 是 可 达 的 。 
定义 ”多 接 人 信道 的 容量 区 域 为 所 有 可 达 码 率 对 (Ri,R2) 的 组 成 集合 的 闭 包 。 
多 接 入 信道 容量 区 域 的 一 个 例子 如 图 15-8 所 示 。 我 们 首先 以 定理 的 形式 给 出 容量 区 域 的 具 
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wa 
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体 描述 。 


GC 





图 15-8 多 接 入 信道 的 容量 区 域 


定理 15.3.1( 多 接 入 信道 的 容量 区 域 ) 多 接 入 信道 (1X 计 2, p(y|z1， z2), 小 ) 的 容量 区 域 
为 满足 下 列 条 件 的 全 体 ( 尽 i，RR;) 所 成 集合 的 凸 闭 包 ， 即 如 果 存 在 站 XX, 上 的 某 个 乘积 分 布 
palz) polar), 使 得 


Ri < I(X1; YIX) (15-56) 
R, < I( X23 Y |X,) (15-57) 
R, + Ro < I(X, X2; Y) (15-58) 


在 证 明 该 区 域 是 多 接 人 信道 的 容量 区 域 之 前 ,， 先 考虑 几 个 多 接 人 信道 的 例子 。 

例 15.3.1( 独 立 二 元 对 称 信 道 ) 假设 有 两 个 独立 的 2 元 对 称 信道 ,其 中 一 个 来 自 于 发 送 器 
1, 另 一 个 来 自 于 发 送 器 2, 如 图 15-9 所 示 。 此 时 , 由 第 7 章 的 结论 得 知 , 我 们 可 以 码 率 1- 
H(p1) 在 第 一 个 信道 上 发 送信 息 ,， 以 码 率 1 一旦 (p,) 在 第 二 个 信道 上 发 送信 息 。 由 于 信道 是 独立 
的 , 发 送 器 间 无 干扰 。 此 时 的 容量 区 域 如 图 15-10 所 示 。 


x, 


R, A 


C,=1-H(p,) 





os 





© 


C\=1-H(p,) Ri 


Æ 15-9 独立 二 元 对 称 信道 图 15-10 独立 BSC 的 容量 区 域 
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例 15.3.2( 二 元 乘法 信道 ) 考虑 一 个 带 二 元 输入 与 二 元 输出 的 多 接 人 信道 


Y= X,X2 


(15-59) 


该 信道 称 为 二 元 乘法 信道 。 容 易 看 出 ， 若 设 定 X:=1， 可 以 从 发 送 器 1 到 接收 器 之 间 以 1 比特 / 


传输 的 速率 发 送信 息 。 同 理 , 设 定 X1=1, 可 以 达 
到 速率 R =1。 显 然 , 由 于 输出 是 二 元 的 , 发 送 器 1 
与 发 送 器 2 的 组 合 速率 R +R, 不 能 超过 1 比特 。 
通过 分 时 作业 , 我 们 可 以 达到 任何 满足 Ri+ R2=1 
的 速率 组 合 。 因 此 , 它 的 容量 区 域 如 图 15-11 
所 示 。 

例 15.3.3( 二 元 控 除 多 接 入 信道 ) 该 多 接 人 信 
道具 有 二 元 输入 , MX =X = {0, 11 以 及 三 元 输出 
Y= Xi+ X2。 如 果 收 到 Y=0 或 了 Y=2，(XI，X2) 并 
不 具有 含糊 性 ; 但 是 ,Y=1 可 能 是 由 于 输入 (0,1) 或 
(1,0) 产 生 的 。 

现在 考虑 两 个 轴 上 的 可 达 码 率 。 取 X=0, 我 们 
可 由 发 送 器 1 以 速率 为 1 比特 /传输 发 送信 息 。 同 样 ， 


N 


0 C= R, 52 


图 15-11 二 元 乘法 信道 的 容量 区 域 


取 Xi =0, 我 们 可 以 按 速率 R,=1 发 送 。 这 样 , 给 出 了 容量 区 域 的 两 个 极端 点 。 我 们 可 否 做 得 更 好 ? 
假定 R11, 则 X 的 码 字 集 必须 包含 所 有 可 能 的 二 元 序列 ,Xi 可 以 看 作 Bermoul( 二 ) 过 程 。 相 对 于 
从 X 发 送 的 信号 而 言 ，Xi 的 行为 如 噪声 一 般 。 因 此 对 于 X, 该 信道 看 起 来 是 如 图 15-12 所 示 的 信 
道 。 这 是 第 7 章 中 的 二 元 擦 除 信道 。 回 顾 其 结论 , 我 们 得 知 该 信道 的 容量 为 六 比特 /传输 。 因 此 , 当 


发 送 器 1 以 最 大 速率 1 发送 信息 时 , 可 以 让 发 送 器 2 发 送 另 外 的 1⁄2 比特 。 在 后 面 导出 容量 区 域 之 


后 , 可 以 验证 这 些 速 率 是 所 有 可 达 的 生 最 佳 的 速率 。 二 元 擦 除 信 道 的 容量 区 域 如 图 15-13 所 示 。 


S|— 


i 


2 
图 15-12 二 元 擦 除 多 接 入 信道 的 
用 户 2 等 价 于 单 用 户 信道 


15.3.1 多 接 入 信道 容量 区 域 的 可 达 性 








bb 一 了 | 


图 15-13 二 元 擦 除 多 接 入 信道 的 容量 区 域 


我 们 现在 来 证 明定 理 15.3.1 中 码 率 区 域 的 可 达 性 。 首 定理 的 证 明 留 到 下 一 节 。 可 达 性 的 证 
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明 与 单 用 户 信道 的 证 明 非 常 类 似 。 因 此 , 我 们 仅 强 调 证 明 中 与 单 用 户 情形 的 不 同 点 。 先 证 明 在 
某 固 定 的 乘积 分 布 p(xzj)p(z,) 之 下 满足 式 (15-58) 的 码 率 对 的 可 达 性 。 在 15.3.3 节 , 我 们 再 推 
广 到 关于 式 (15-5$8) 的 凸 包 中 的 所 有 点 的 可 达 性 的 证 明 。 

证 明 (定理 1$5.3.1 中 的 可 达 性 ): 固定 pla, x2) = pi(x1) Pp2( x2)o 

码 簿 的 生成 。 产 生 2 中 个 相互 独立 且 长 度 为 n BSF X (i), i€ 11, 2,…, 21, RP 


码 字 的 个 分 量 为 i.i.d. ~ J] ps (aude 同样 ， 再 产生 RAYE C), FELL 2,…， 


2" 肥 :| ,其 中 每 个 码 字 的 n TIEA iid. ~ II ba( tzu). FARHBFARH BEM TERI 
与 接收 器 都 是 公开 的 。 
编码 。 为 了 发 送 下 标 i, 发 送 器 1 RIKI XG), 同 理 , ATRE j, 发 送 器 2 RIK FX). 
译 码 。 以 A 表示 所 有 典型 的 (x ,xs, y) 序 列 构成 的 集合 。 接 收 器 Y" 根据 满足 
(ali), mG), y) E AM” (15-60) 
选取 下 标 对 (i, j)。 若 这 样 的 下 标 对 (i, ; ) 存 在 且 惟 一 , 那么 译 码 完成 ; 否则 , 宣布 出 错 。 
误差 概率 分 析 。 由 随机 码 构造 的 对 称 性 , 条 件 误差 概率 并 不 依赖 于 具体 发 送 的 下 标 对 。 因 
此 , 条 件 误差 概率 与 无 条 件 误差 概率 是 相同 的 。 所 以 , 不 失 一 般 性 , 可 假设 发 送 的 一 对 下 标 为 
(i, j)=(1, 1)。 
在 下 列 情形 下 我 们 会 出 错 : 正确 码 字 与 接收 到 的 序列 是 非典 型 的 , 或 者 有 一 对 不 正确 的 码 字 
与 接收 到 的 序列 是 典型 的 。 定 义 事件 
E; = {(X1(i), YE AMP} (15-61) 
由 事件 之 并 的 概率 不 等 式 ， 
P= P(E Uy, panes) (15-62) 


<P(En) + 2 P(E) + 2 P(E,) 


其 中 P 表示 在 发 送 (1, 1) 下 的 条 件 概率 。 由 AEP, PCE) > 0. He 15.2.1 与 定理 
15.2.3, 对 i 关 1, RITA 


P(E,)= P((X(i), X(1), Y) € AS) (15-64) 
= D pDr y) (15-65) 
Ga my NEAL” 
< | Aw” | Qn H(X,)~2) 9-2 (AX, , Y)-e) (15-66) 
< 2-z(CHCXI)+HCX?， Y)-H(X,, X,, Y)-3e) (15-67) 
= -n(UXs Xs, Y)-3e) (15-68) 
= 2-25 Y|X,)-3e) (15-69) 


其 中 的 等 式 (15-68) 和 等 式 (15-69) 是 由 于 X 与 X 相互 独立 , 从 而 有 IX; X Y= 1X3 
X,)+ (X43 Y|X,)= I(X;; Y|X,)。 同 理 ， 对 j 关 1 

P(Ej;) <Q ys Y|X,)-3e) (15-70) 
以 及 对 i441, j 关 1， 

P(E;) <Q, X,; Y)-4e) (15-71) 
于 是 , 可 以 推出 
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Po < P(E%4,) + gnRig7 aX; YIX,)-3e) 十 gnR,g-nU(X,s YIX,)-3e) 
+ 27(R,+R,)9-nUl(X,, X, Y)—4e) (15-72) 
由 于 e>0 是 任意 的 , 则 由 定理 条 件 可 以 推出 当 n> ooh}, 每 一 项 都 趋向 于 0。 于 是 , 被 发 送出 去 
的 码 字 在 条 件 作 用 下 ， 当 该 定理 的 条 件 满足 时 , 误差 概率 趋 于 0。 上面 的 界 估 计 说 明 , 平均 误差 
概率 (均值 遍历 在 随机 码 构造 中 所 有 可 能 选取 的 码 敌 ) 可 任意 地 小 , 这 是 因为 由 对 称 性 可 以 推出 
其 等 于 单个 码 字 的 概率 。 因 此 , 至少 存 在 一 个 其 误差 概率 可 以 任意 小 的 编码 C* 。 

至 此 完成 了 对 固定 的 输入 分 布 式 (15-58) 中 区 域 的 可 达 性 的 证 明 。 稍 后 在 15.3.3 节 中 , 我 们 
将 证 明 , 分 时 操作 可 使 凸 包 中 的 任意 (Ri，R,) 都 是 可 达 的 , 从 而 完成 定理 前 面部 分 的 证 明 。 OO 
15.3.2 对 多 接 入 信道 容量 区 域 的 评述 

现在 已 证 明了 对 于 xX 上 的 某 个 分 布 p1(z1)p2(x2), 多 接 入 信道 容量 区 域 的 可 达 性 , 该 
区 域 是 满足 下 面条 件 的 点 (Ri1，R;2) 所 成 集合 的 r 
凸 闭 包 ， > 

Ri < I(X; Y | X) (15-73) 
Ry < I(X;; Y | X1) (15-74) 10YO 
R, + R< I(X,, X23 Y) (15-75) 
对 某 特 定 的 £1 (21) pa(z2), 该 区 域 如 图 15-14 
所 示 。 HX;:Y) 

我 们 现在 对 区 域 的 角 点 给 出 解释 。 点 A 对 
应 于 当 发 送 器 2 没有 发 送 任何 信息 时 ， 从 发 
送 器 1 到 接收 器 发 送信 息 的 最 大 可 达 码 
a, 即 


maxR, = „EX, Xs Y|X,) (15-76) 


现在 对 于 任意 分 布 加 (zi)za(zz)， 由 于 平均 值 图 15-14 具有 固定 输入 分 布 的 
不 会 超过 其 中 的 最 大 项 , 可 得 多 接 人 信道 的 可 达 区 域 
IX Y|X2)= >) pa(zo)I(X1; YIX: = 22) (15-77) 





0 KX;Y) XY) R 


< maxI (Xi; YIX; = z2) (15-78) 
Auk, 当 取 X, = zz 时 , 式 (15-76) 中 的 最 大 值 可 达 , 其 中 r 为 使 Xi SY 间 的 条 件 互 信息 最 大 
化 的 值 。 而 对 Xi 的 分 布 的 选取 要 求 使 互信 息 达 到 最 大 。 因 此 , 通过 令 X= ar XARF 
X, 的 传输 。 
点 B 对 应 于 当 发 送 器 1 以 最 大 码 率 发 送信 息 时 , 发 送 器 2 发 送信 息 可 以 达到 的 最 大 码 率 。 
该 码 率 可 以 通过 将 X 看 成 是 从 X 到 Y 的 信道 噪声 时 得 到 。 此 时 , 由 单 用 户 信道 得 到 的 结论 可 
知 ，X2 可 以 以 码 率 I(X,; Y) 发 送信 息 。 接 收 器 现在 知道 到 底 是 哪个 X, 码 字 被 发 送 了 , 并 且 能 
够 将 其 输出 效果 从 信道 中 “ 减 去 ”。 此 时 , 我 们 可 以 将 该 信道 看 作 是 带 有 一 个 下 标 集 的 单 用 户 信 
道 , 其 中 的 下 标 即 是 使 用 的 X 的 符号 。 这 时 , X 可 以 达到 的 码 率 就 是 针对 这 些 信 道 而 取 的 平均 
互信 息 , 且 每 个 信道 出 现 的 次 数 与 对 应 的 X, 符号 在 码 字 中 出 现 的 次 数 相同 。 因 此 , 可 以 达到 的 
码 率 为 
2s plz) IXa; YIX: = z2) = I(X1; YIX) (15-79) 


而 点 C 与 D 分 别 对 应 于 将 两 个 发 送 器 的 位 置 交 换 时 的 B 与 4A。 非 角 点 可 以 通过 分 时 操作 而 达 
Bl, FR, 我 们 对 多 接 入 信道 的 容量 区 域 给 出 了 单 用 户 的 解释 及 其 正当 的 理由 。 
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在 上 述 讨论 中 , 将 其 他 的 信号 考虑 为 噪声 的 一 部 分 , 译 码 单个 信号 并 将 其 从 接收 到 的 信号 中 


“ 减 去 ”的 思想 是 非常 有 用 的 。 我 们 将 在 退化 广播 信道 的 容量 的 计算 中 再 次 磁 到 这 个 思路 。 


15.3.3 多 接 入 信道 容 量 区 域 的 是 性 

我 们 现在 来 重 温 多 接 入 信道 的 容量 区 域 , 为 了 将 取 是 包 的 运算 考虑 进去 , 我 们 引进 一 个 新 的 
随机 变量 。 为 此 , 首先 证 明 容 量 区 域 为 凸 集 。 

定理 15.3.2 ”多 接 入 信道 的 容量 区 域 C 是 西 的 [如 果 ( 尺 ,Ra)EC 且 (Ri,， Ra)EC,， 则 对 0 委 
AX1, WAAR, + (1-A) Ri, AR2+(L-A)R2)EC]。 

证 明 : 证 明 思 路 是 利用 分 时 操作 。 给 定 两 个 码 率 对 分 别 为 R= (R}，R,) 与 R =(Rj, R36 
编码 序列 , 可 以 建立 码 率 为 4R+ (1 一 A)R 的 第 三 个 码 绑 , 具体 方法 是 : 对 于 新 码 短 中 长 度 为 n 
的 码 字 , 前 Aan 个 字符 取 自 码 字 长 度 是 Xn HBTS, 而 后 (1 一 4)n 个 字符 取 自 码 字 长 度 是 
(1 一 A)n BSS. Mil, 在 这 个 新 码 绑 中 , 关于 X 的 码 字数 量 为 


IDURD AR — rR A R) (15-80) 
因此 , 新 编码 的 码 率 为 4R+ (1 一 和 A)R 。 由 于 总 的 误差 概率 小 于 每 个 部 分 误差 概率 的 总 和 , FE, 
新 编码 的 误差 概率 趋向 于 0, 且 码 率 可 达 。 口 


我 们 现在 用 一 个 分 时 随机 变量 Q 来 改写 对 多 接 人 信道 容量 区 域 的 叙述 。 在 给 出 该 定理 的 证 
明之 前 , 还 需要 证 明 凸 集 的 一 个 性 质 , 这 里 的 凸 集 是 由 线性 不 等 式 界定 的 可 以 看 作 多 接 人 信道 的 
容量 区 域 。 特 别 , 我 们 将 证 明 两 个 由 这 种 线性 约 东 决定 的 区 域 的 凸 包 等 于 由 这 些 线性 约束 条 件 


.的 线性 组 合 决定 的 区 域 。 初 看 ,两 种 集合 的 相等 似乎 很 显然 , 但 动手 检查 就 会 发 现 , 里 面 存在 一 


个 陷阱 , 这 是 因为 某 约束 条 件 不 活跃 。 为 了 说 明 这 一 点 , 我 们 列举 下 面 两 个 由 线性 不 等 式 界定 的 
RE: 


C = Kz, y): ce 0, y>0, e<10, y<10, x + y< 100} (15-81) 

C, = (xz, y): 1 >20, yo 0, r <20, y <20, x+ y <20} (15-82) 
此 时 ,对 应 于 (十 , 十) 约束 条 件 的 凸 组 合 定义 的 区 域 如 下 : 

C= |(z, y): 1>0, y>0, ce S15, y<15, x + y< 60} (15-83) 


FEAH, C 或 者 C, 中 的 点 满足 c+ y<20. 所 以 , CSC, 的 并 的 凸 包 中 的 任何 点 也 满足 该 
性 质 。 从 而 , C 中 的 点 (15, 15) 不 在 (C1U C2) 的 凸 包 中 。 该 例子 也 暗示 了 该 问题 的 原因 所 在 : 界 
E C1 的 约束 条 件 z + y<100 是 不 活跃 的 。 假 如 将 约束 条 件 换 成 z+ ya, 其 中 a<20, 那么 上 
述 两 个 区 域 的 等 同性 结论 为 真 ， 正如 我 们 下 面 将 要 证 明 的 那样 。 

我 们 仅 对 五 边 形 区 域 ( 是 两 用 户 多 接 人 信道 容量 区 域 的 重要 组 成 部 分 ) 进 行 讨论 。 此 时 , 对 
于 国定 的 p(xz1)p(x2), 信道 容量 区 域 是 由 三 个 互信 息 (Xs YXz)，I(X2;Y|XI) 与 TUX1， 
X; YARN, 分 别 记 为 L, h5 o TÆ, 任 给 的 p(xz1) p(x2), 对 应 一 个 向 量 I= (Ch, I, 
3) 以 及 一 个 码 率 区 域 , 其 定义 如 下 : 

C = {Ri, Ro): Ri 0, R220, RSh, RSh, Ri t+ Rs 1 (15-84) 
另外 , 由 于 对 于 任何 分 布 p(x1)p(z2), 我 们 均 有 
I(X; YIX1)= H(X,|X,) - HOG! Y, Xı) 

H(X,) - H(X2| Y, X1) 
= I(X,; Y, Xı) 
= I(X2; Y) + I(Xz; Xıl Y) 
> I(X,; Y) 
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因此 , IX; YIX) + TOX2; VIX) SI Xs YIX) +I(Xz3; Y)= 1(Xi, Xz; Y), FÆ, 对 于 
所 有 向 量 I, 均 有 厂 + 氏 , 实 13。 该 性 质 将 给 出 定理 的 临界 。 
引 理 15.3.1 Fh, LER3 是 两 个 互信 息 向 量 , 分 别 定义 码 率 区 域 Ci 与 Cl， 如 式 (15-84) 
MEL IER OKAL, ZL Y=AALt+U-AL, 并 以 Cr 记 五 所 定义 的 码 率 区 域 ， 那 么 
Cy = ACr + (1 ~ 4)Cr (15-85) 
证 明 : 分 两 步 证 明 该 定理 。 首 先 证 明 集合 CLS CA, 1- %) 组 合 中 的 任何 点 都 满足 约束 条 
件 了 。 这 是 一 项 直截了当 的 检验 工作 , 因为 Ci 中 的 任何 点 满足 关于 工 的 不 等 式 , 而 Cr 中 的 任何 
点 也 满足 关于 LETER. MA, 这 样 的 两 点 关于 系数 (4，1 一 4) 的 凸 组 合 必 满 足 约束 条 件 关 于 
RRA, 1 一 4) 的 凸 组 合 。 于 是 , 可 以 推出 
AC, + (1- aCe ec, (15-86) 
为 了 证 明 相反 的 包含 关系 , 考虑 五 边 形 区 域 的 极端 点 。 不 难看 出 式 (15-84) 所 定义 的 码 率 区 域 总 是 五 边 
形 , 或 者 在 极端 情形 1 = 了 + 1,8, WE. 于是, 容量 区 域 Cf 依 然 可 以 定义 为 以 下 五 个 极端 点 的 凸 包 : 
(0,0), (11, 0), (h, B- L), (I - I2, In), (0, I) (15-87) 
考虑 及 所 定义 的 区 域 ; 它 也 是 由 五 个 点 来 决定 的 。 任 取 一 个 点 , 不 妨 设 为 O- 1%, I?)。 那 
4, 该 点 可 以 改写 为 ( 1) - BP, BP) SUP - 1, IP ) 关 于 系数 (1, 1- 2) 的 凸 组 合 , 因此 ， 
落 在 Ci 与 Cr 的 西 组 合 中 。 于 是 ， 五 边 形 Ci 的 极端 点 落 在 Ci 与 Cu 的 凸 包 中 ,或 者 
Cy SAC, + (1 - ad, (15-88) 
综合 两 部 分 论证 , 我 们 得 到 定理 的 证 明 。 口 
在 该 定理 的 证 明 过 程 中 , 我 们 暗自 用 到 了 这 样 一 个 事实 : 所 有 码 率 区 域 完全 由 五 个 极端 点 决 
定 ( 在 最 糟糕 的 情形 , 五 个 极端 点 有 的 相等 )。 所 有 五 个 点 都 是 由 向 量 工 所 决定 且 落 在 码 率 区 域 
内 。 如 果 条 件 I<, + LPE, 式 (15-87) 中 某 些 点 或 许 会 在 码 率 区 域 之 外 , 那么 证 明 就 月 汗 。 
作为 上 述 引 理 的 推论 , 我 们 有 如 下 定理 : 
定理 15.3.3 ”由 单个 向 量 工 所 定义 的 码 率 区 域 的 并 的 凸 包 等 于 由 相应 的 单个 向 量 工 的 凸 组 
合 所 定义 的 码 率 区 域 。 
关于 码 率 区 域 的 凸 包 运 算 与 互信 息 的 凸 组 合 的 等 价 性 的 讨论 手法 可 以 推广 到 更 一 般 的 m 用 
户 多 接 人 信道 。 沿 用 该 思路 并 使 用 矩阵 多 项 式 理论 的 证 明 过 程 在 Han[271]j 中 给 出 。 
定理 15.3.4 离散 无 记忆 多 接 入 信道 的 可 达 码 率 集 为 满足 下 列 条 件 的 所 有 ( 尺 )，Rs) 的 集合 
HAG, 即 如 果 选 择 某 个 联合 分 布 p(q)p(zilq)p(z21q)p(yilz1， x2), 使 得 
Ri< I(X;; Y|X2, Q) 
R< I(X,; Y|X;, Q) 
Ri+ Ro< I(Xi, X23 Y|Q) (15-89) 





其 中 | 乌 | 魏 4。 
(表示 分 时 随机 变量 Q 的 字母 表 。 一 一 译 者 注 ) 
证 明 : 我 们 将 证 明 落 在 式 (15-89) 所 述 区 域内 的 每 对 码 率 都 是 可 达 的 ( 落 在 满足 定理 15.3.1 所 述 
的 凸 闭 包 中 )。 我 们 还 将 证 明定 理 15.3.1 中 的 区 域 的 凸 闭 包 中 每 一 点 也 在 式 (15-89) 定 义 的 区 域 中 。 
考虑 满足 定理 中 不 等 式 组 (15-89) 的 区 域 中 的 某 码 率 点 R。 我 们 可 将 第 一 个 不 等 式 右边 改写 为 


I(X,; Y|X>, Q)= DX; YIX, Q = q) (15-90) 


= SODA: Y |X2),,, Pry (15-91) 


9=1 





oo 
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其 中 m 为 Q 的 支撑 集 的 基数 。 同 理 , 我 们 可 以 将 其 他 互信 息 展开 。 

为 了 使 记号 简单 起 见 , 将 每 对 码 率 视 为 一 个 向 量 , 并 将 在 特定 的 输入 乘积 分 布 pila) 
p2s(Xx2) 之 下 满足 不 等 式 组 (15-58) 的 码 率 对 记 为 R,。 具 体 地 , HR, = (Ri Rag) SHE AIA 
件 的 码 率 对 


Rig< 1X13 Y1X2) 5, (ap) (15-92) 
Rag< 1(X23 Y1X1) 9, (apn) (15-93) 
Ri, + Ra < ICX,, Xo; Y) p(x) pz2) (15-94) 


此 时 , 由 定理 15.3.1, R= (Ris，R2zo) 是 可 达 的 。 由 于 RR 满足 式 (15-89), 且 可 类 似 于 式 (15-91) 
那样 将 式 (15-91) 右 边 展开 , 故 存在 一 组 满足 式 (15-94) 的 R. 使 得 


R = > (oR, (15-95) 


由 于 可 达 码 率 的 凸 组 合 仍然 是 可 达 的 , 所 以 RR 也 可 达 。 因此 , 我 们 证 明了 定理 中 所 示 区 域 的 可 达 
性 。 同 理 , 可 以 证 明 式 (15-58) 中 所 述 区 域 的 凸 闭 包 中 的 每 点 均 可 写成 满足 式 (15-94) 点 的 混合 
ER, 因此 , 可 写成 式 (15-89) 的 形式 。 

道 定 理 在 下 一 节 中 证 明 。 道 定理 说 明 所 有 可 达 码 率 对 都 有 式 (15-89) 的 形式 , 由 此 确立 了 式 
(15-89) 描 述 的 区 域 就 是 多 接 入 信道 的 容量 区 域 。 分 时 随机 变量 Q 的 字母 表 基 数 的 界 是 关于 此 
集 的 Carathéodory 定理 的 推论 。 请 看 如 下 的 讨论 。 口 

容量 区 域 的 凸 性 的 证 明说 明 可 达 码 率 对 的 任意 凸 组 合 也 是 可 达 的 。 我 们 可 继续 该 过 程 , 考 
虑 更 多 点 的 凸 组 合 。 那 么 , 我 们 是 否 需 要 用 到 任意 数量 的 点 ? 容量 区 域 是 否 会 增加 ? 下 面 的 定 
理 将 告诉 我 们 ， 答案 是 否定 的 。 

定理 15.3.5(Carathéodory) d 维 欧 几 里 得 空间 中 的 紧 集 A 的 凸 闭 包 中 的 任意 一 点 可 表示 
为 初始 集合 A 中 qd +1 个 或 更 少 的 点 的 西 组 合 。 

证 明 : 证 明 可 参阅 Eggleston[ 183) Grünbaum[ 263]. 口 

该 定理 使 得 我 们 在 计算 容量 区 域 时 只 要 将 注意 力 放 在 确定 的 有 限 凸 组 合 上 。 这 是 一 个 很 重 
要 的 性 质 。 如 果 没 有 该 定理 , 不 可 能 计算 出 式 (15-89) 的 容量 区 域 , 因为 我 们 永远 无 法 知道 使 用 
更 大 的 字母 表 @ 是 否 会 增加 容量 区 域 。 

在 多 接 人 信道 中 , 不 等 式 定义 出 了 三 维 空间 中 的 一 个 连通 紧 集 。 因 此 , 其 闭 包 中 的 所 有 点 , 均 
可 由 至 多 四 点 的 凸 组 合 决定 。 因 此 , 在 以 上 的 容量 区 域 的 定义 中 , 可 将 Q 的 基数 限定 为 不 超过 4。 

注释 ”换个 角度 来 考虑 , 许多 基数 不 等 式 总 会 有 所 改进 。 例如 ,如 果 我 们 现在 只 对 容量 定理 
中 A 的 凸 包 的 边界 感 兴趣 , 那么 , 该 边界 上 的 每 个 点 都 能 表示 为 A 中 的 4 个 点 的 组 合 , 这 是 因 
为 A 的 边界 上 的 点 必然 位 于 A 与 菜 个 4 一 1 维 支撑 超 平面 的 交集 中 。 

15.3.4 多 接 入 信道 的 逆 定 理 

我 们 已 证 明了 容量 区 域 的 可 达 性 。 本 节 我 们 证 明 其 逆 定 理 。 

证 明 (定理 15.3.1 与 定理 15.3.4 的 逆 定 理 ): 我 们 必须 证 明 , 对 于 任何 给 定 满足 Po 的 
((2 2:) ,nn) 码 序列 ， 其 码 率 码 率 对 (Ri,R2) 必 须 满足 

Rix I( X43 Y!X,,Q) 

Rs I( X23 Y|X1,Q) 
Ri + R< I(X1,X23 YIQ) (15-96) 
选择 定义 在 11,2,3,4} 上 的 随机 变量 Q GRAD p(q)p (211 ¢) (2219) p(ylaei.22)0 BE 
n, 考虑 分 组 长 度 为 n 的 编码 。YW1 XW XXXII" 上 的 联合 分 布 是 已 知 的 , 其 中 的 随机 性 
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仅 源 于 均匀 地 选取 下 标 Wi SW, 以 及 信道 本 身 产生 的 随机 性 , 因此 , 联合 分 布 为 


p( wy, W2,25,23,y") = oa, Epli | wy) plil we) TT ple) (15-97) 
其 中 ， 当 ci =x, (w,) (B45 wi 对 应 ) 时 ， plil w) 1, 否则 为 0。 同 理 ， plil w) =1 


0, 取决 于 15g w ERR. MERIA HIA ARER A AER o 


由 编码 的 构造 过 程 可 知 , 凭借 接收 到 的 序列 Y, 可 以 很 低 的 误差 概率 将 (Wi, W,) 估 计 出 


来 。 因 此 , 给 定 Y, (Wi, Wr) ER. HR SK, 


H(W,,W2| Y”) < a(R; + R,) PS? + H(P™) Ane, (15-98) 
BR, 当 PMO, e,->0。 于 是 , 我 们 有 

H(W,| Y") < H(W,, Wal Y°) < ne, (15-99) 
H( W3) Y") < H(W,, W2| Y”) < ne, (15-100) 

我 们 现在 可 以 给 出 关于 码 率 R 的 如 下 不 等 式 
nRi= H(W,) (15-101) 
= I(W,; Y") + H(Wil Y”) (15-102) 
<I( Wy; Y") + ne, (15-103) 
ZIW); Y") + ne, | (15-104) 
= H(X%(W,)) — HCXtCW,) | ¥") + ne, (15-105) 
SH(X4(W,) | X3(W2)) — HCXECW,) | Y", X3(W))) + ne, (15-106) 
= 1(X%(W,); Y"|X3(W,)) + ne, (15-107) 
= H(Y"|X3(W2)) — HCY" |X%(W,), X3(W2)) + ne, (15-108) 
2 HCY" 1X§(W2)) - ACY X1CW,),X8(W2)) + ne, (15-109) 
2 HCY” |X3(W,)) - SH Y, |X X2) + ne, (15-110) 
<>) HC ¥;1X3(W2)) ~ >) HC Y; | X1i, X21) + ne, (15-111) 
SS} HY; Xz) - DH Yi |X1i, X2i) + ne, (15-112) 
= DCX Y;|Xz) + ne, (15-113) 


其 中 
(a) 由 费 诺 不 等 式 推出 
(b) 由 数据 处 理 不 等 式 得 到 


(o) 由 于 Wi 与 W 是 独立 的 , 因此 , X(W) 驶 (Ws) 也 独立 , 于 是 , 有 ACW) | XBW) = 


HX%(W,)), 以 及 由 于 条 件 作用 使 精 减 小 , 则 HXW) Y, XWH CW) | Y") 
(d) 由 链 式 法 则 得 到 
(e) 由 于 信道 的 无 记忆 性 ，Y; 仅 依 赖 于 Xi 与 X2; 
(£) 由 链 式 法 则 以 及 剔除 条 件 作 用 (removing conditioning) 得 到 


(LA 
Ko) 





un 
A 
© 
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(g) 由 进一步 剔除 条 件 作 用 而 得 
因此 , 我 们 有 
RS 1 > IX; Y; |X>;) + En (15-114) 
类 似 地 , 可 以 得 到 
RIEDX YilXu) + e, (15-115) 
为 了 给 出 码 率 之 和 的 上 界 , 我 们 考虑 
n(R, + R,)= H(W,, W3) (15-116) 
= I1(W,,W2; Y") + H(W,, W2) Y°) (15-117) 
ŠIW, Wz; Y") + ne, (15-118) 
ŠIW), X(W); Y") + ne, (15-119) 
= H( Y") — H(Y"|Xi(W,),X3(W2)) + ne, (15-120) 
三 HOCOm) - DI HOY NY XI WD), XI( Wa)) + ne, (15-121) 
SH(Y) 一 XH Y; | Xi1;, Xai) + ne, (15-122) 
<>) Hy) 一 DH Y;|X1;,X2;) + ne, (15-123) 
= SX Xz Y;) + ne, (15-124) 
其 中 
(a) 由 费 诺 不 等 式 得 到 
(b) 由 数据 处 理 不 等 式 得 到 
(c) 由 链 式 法 则 得 到 
(d) 由 于 Y; 仅 依 赖 于 Xi; 与 Xz;, 而 与 其 他 所 有 事件 条 件 独 立 
(e) 由 链 式 法 则 与 剔除 条 件 作 用 得 到 
因此 , 我 们 有 
R,+R <15 T(X Xas Y;) +e, (15-125) 


表达 式 (15-114) , 表达 式 (15-115) 与 表达 式 (15-125) 是 使 用 码 夭 中 第 i 列 的 经 验 分 布 为 概率 分 布 
计算 出 的 互信 息 的 均值 。 我 们 可 用 新 变量 Q 改写 这 些 方程 组 ,其 中 Q = iE {1,2,…,n| 的 概率 


为 二 。 则 方程 组 成 为 
Ri< 15) I(X1i, Yi |X2;) + En 


=D Xu YX Q = i) + en 
i=1 


= I(Xio; YolX20, Q) + & 
I(Xi; Y|X2,Q) + En 


(15- 


(15- 


(15- 
(15- 


126) 


127) 


128) 
129) 


其 中 X, AXo, X: AXAR VAY 为 新 的 随机 变量 , 分 布依 赖 于 Q, 其 方式 就 像 X1;，X2; 





网 络 信 息 论 309 





RY; 依赖 于 i 那样 。 由 于 Wi 与 W, 独立 , 因此 ， X, (Wp) X2;,(W,) thw. Fee 
Pr(X1;( Wy) = zi, Xu ( W2) = x2) 
APr| Xig = zil Q = i}Pri Xa = 221Q = il (15-130) 
因此 , 当 n>, 极限 P0, RNAS He: 
Ris 1(X1; Y|X),Q) 
R< I(X:;Y|X,,Q) 
R, + R< I(Xi, X2; Y |Q) (15-131) 
对 某 选取 的 联合 分 布 p(g)p(xil gq)p(x21q)ply|xi,x2)。15.3.3 节 已 说 明 , 车 我 们 将 的 基 
数 限制 到 4, 该 区 域 是 不 变 的 。 
这 就 完成 了 首 定 理 的 证 明 。 口 
至 此 , 15.3.1 节 中 的 定理 15.3.1 所 述 区 域 的 可 达 性 得 到 了 证 明 。 在 15.3.3 节 中 , 我 们 证 明 
了 式 (15-96) 中 定义 的 区 域 的 每 一 点 都 是 可 达 的 。 对 其 逆 定 理 , 我 们 证 明了 式 (15-96) 中 的 区 域 是 
我 们 可 做 到 的 最 佳 区 域 。 这 就 证 明了 它 实际 上 就 是 信道 的 容量 区 域 。 因 此 , 式 (15-58) 所 述 区 域 
不 可 能 比 式 (1$-96) 所 述 区 域 大 ,从 而 式 (1$-$8) 所 述 区 域 即 是 多 接 人 信道 的 容量 区 域 。 
15.3.5 m 个 用 户 的 多 接 入 信道 
我 们 现在 要 将 关于 两 个 发 送 器 的 结论 推广 至 m (nm 宇 2) 个 发 送 器 的 情形 。 此 时 的 多 接 入 信道 
如 图 15-15 所 示 。 , 
我 们 从 发 送 器 1,2,…, m 通过 信道 分 别 独立 地 发 送 下 
标 wi, tw2，,…, two 其 中 编码 , 码 率 以 及 可 达 性 等 定义 均 与 ~ 
两 个 发 送 器 时 的 情形 相同 。 : 
设 SC41,2,--,m}, 2S AS 的 补 集 。 $ R(S)= 
ZRi,X(S)= {X;:i€ S|, 则 我 们 有 下 面 的 定理 。 
定理 15.3.6 m 个 用 户 的 多 接 入 信道 的 容量 区 域 为 满 
足 如 下 条 件 的 所 有 码 率 向 量 所 成 集合 的 西 闭 包 , 即 对 乘积 
分 布 p(x) pa(X2)… Pm (im) » 使 得 






PHN, Xat Xm) 


E 15-15 m 个 用 户 的 多 接 人 信道 


R(S) <I1(X(S); ¥|X(S°)) 对 所 有 SS {1,2,--, mI} (15-132) 
证 明 ; 该 定理 的 证 明 不 需要 新 的 思路 。 在 可 达 性 的 证 明 中 ,只 要 考虑 2” - 1 项 误差 概率 ; 在 
道 定 理 的 证 明 中 , 需要 的 不 等 式 数目 也 是 相同 的 。 详 细 证 明 留 给 读者 。 口 


通常 , 式 (15-132) 中 的 区 域 为 一 个 斜 多 面体 。 
15.3.6 高 斯 多 接 入 信道 
我 们 现在 对 15.1.2 节 中 讲 到 的 高 斯 多 接 人 信道 进行 更 为 详尽 的 讨论 。 
两 个 发 送 器 X, AX, 向 同一 个 接收 器 Y 发 送信 息 。 在 时 刻 i 收 到 的 信和 号 为 


Y; = Xut Xt+Z - (15-133) 
FP, 12} 为 独立 同 分 布 的 零 均值 高 斯 随机 变量 序列 且 z” 
方差 为 N( 图 15-16)。 假 设 对 发 送 器 j 的 功率 限制 为 ”用 一 x 
P,, 即 对 每 个 发 送 器 以 及 所 有 的 消息 ,必须 满足 Pi pehi 
tw) <P, ee 
w; € {1,2,7,2}, j=1,2 (15-134) P: 


正如 同 将 离散 情形 信道 容量 的 可 达 性 证 明 ( 见 第 7 图 15-16 高 斯 多 接 入 信道 
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章 ) 可 以 推广 到 高 斯 信道 情形 (第 9 章 ) 那 样 , 也 可 将 离散 多 接 人 信道 的 证 明 推广 至 高 斯 多 接 人 信 
道 。 其 逆 定 理 的 证 明 也 可 作 类 似 的 推广 , 于 是 , 可 预期 该 容量 区 域 为 满足 所 有 下 列 条 件 的 码 率 对 


ARRAN, 即 存在 满足 EXT<P, 与 EXP 的 某 个 输入 分 布 万 (zi) 户 (zz)， 使 得 


Rix 1(X1;3 Y |X») (15- 

R< 1( X23 Y |X.) (15- 

Ri + RS I(X,,X2; Y) (15- 
PRK EBA AMA, B 

1(X1; Y|X.) = aC Y|X2) — ACY |X,,X>) (15- 

= h(X, + X+ Z|IX,) — ACX, + X,+ Z|X,,X2) (15- 

= h(X,+ Z|X,) — h(Z|X,,X2) (15- 

= h(X, + Z|X2) - h(Z) (15- 

= h(X,+ Z)-nh(Z) (15- 

= A(X, +Z)- 六 log(2re)N (15- 

< F log 2ne)(P; +N) - 二 log(2re)N (15- 

= cg(1+ 兄 | (15- 


135) 
136) 
137) 


138) 
139) 
140) 
141) 
142) 


143) 
144) 


145) 


其 中 式 (15-141) 由 Z 独立 于 X 与 X 得 到 , 式 (15-142) 由 Xi 与 X 的 独立 性 得 到 , 式 (15-144) 则 由 于 
HAED ME, 正 态 分 布 使 得 炉 最 大 化 的 事实 推出 。 因 此 ,Xi 与 X 独立 时 , 最 大 化 分 布 为 Xi ~ 
N (0,P),， Xs 一 和 (0,P,)。 该 分 布 同时 也 使 得 式 (15- 135) 一 式 (1S-137) 中 作为 上 界 的 互信 息 最 大 化 。 


定义 ”我 们 定义 信道 容量 函数 为 


C(x) 和 A 二 log(1 +2) , (15-146) 


对 应 于 信 噪 比 为 z( 图 15-17) 的 高 斯 白 噪声 信道 的 信道 容量 。 


R, 


DT . 
c N 
P, ) 
(my B 
A 
0 R, 


sx) c) 


图 15-17 高 斯 多 接 入 信道 容量 
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此 时 , 关于 Ri 的 上 界 写 为 


R< c(®) (15-147) 
P, 
R< c(®) (15-148) 
N 
以 及 
R+R< c(a) (15-149) 


当 X, ~N (0,P)5 X~ N (0, PVN, 这 些 上 界 可 达 , 从 而 定义 了 容量 区 域 。 关 于 这 些 不 等 式 ， 
可 以 得 出 一 个 令 人 惊奇 的 事实 : 码 率 之 和 可 以 达到 C( 一 2 ) ， 它 与 单个 发 送 器 在 功率 Pi +P, 
之 下 发 送信 息 的 情形 有 相同 的 可 达 码 率 。 

对 于 转角 点 的 解释 , 也 与 对 固定 输入 分 布 的 离散 多 接 入 信道 的 可 达 码 率 对 的 解释 完全 类 似 。 
在 高 斯 信道 情形 下 ,可 将 译 码 过 程 考虑 为 两 步骤 处 理 , 第 一 步 ,接收 器 对 第 二 个 发 送 器 发 送 的 信息 
进行 译 码 , 此 时 ,将 第 一 个 发 送 器 视 为 噪声 的 一 部 分 。 当 R< C | 二 -AN ) 时 ,该 译 码 的 误 郑 概率 


很 低 。 第 二 个 发 送 器 成 功 地 译 码 以 后 ,从 总 体 输出 信号 中 剔除 该 信号 。 那 么 , 当 Ri< CE ) 时 ， 


可 以 正确 地 译 码 第 一 发 送 器 发 出 的 信号 。 因 此 ， 上述 讨论 说 明 我 们 可 以 通过 单 用 户 操作 达到 容量 
区 域 的 转角 点 处 的 码 率 。 这 种 处 理 过 程 称 为 剥 洋 苞 (onion-pecling) , 可 以 推广 到 多 用 户 的 情形 。 
若 将 其 推广 为 有 相同 功率 的 m 个 发 送 器 的 情形 , 那么 总 码 率 为 C( 于 ) 。 由 此 推出 , 当 mo 


时 , 总 码 率 趋向 于 co。 而 每 个 发 送 器 的 平均 码 率 十 C( 到 ) 趋 向 于 0。 因 此 , 当 发 送 器 的 总 数 非 常 大 时 

会 产生 相当 大 的 干扰 , 此 时 ,尽管 单个 发 送 器 的 码 率 趋向 于 0, 但 可 以 发 送 的 信息 总 量 还 是 任意 大 。 
上 述 容 量 区 域 对 应 着 码 分 多 址 (code-division multiple access, CDMA), 其 中 对 于 不 同 发 送 者 的 

编码 是 分 区 处 理 的 ,接收 端 译 码 则 是 逐个 处 理 。 在 许多 实际 情形 ,会 采用 一 些 较为 简单 的 方案 ， 


比如 频 分 多 路 技术 (frequency-division multiplexing) 或 者 时 分 多 路 技术 。 由 频 分 多 路 技术 可 知 , 码 ， 


率 取决 于 分 配给 单个 发 送 器 的 带宽 。 考 虑 具有 功率 P 与 P 的 两 个 发 送 器 的 情形 , 使 用 两 个 不 
相交 的 频带 带宽 Wi 与 W, 其 中 W+ Wl = W( 总 带宽 )。 利 用 单 用 户 的 带宽 有 限 信 道 的 容量 公 
R, 下 面 的 码 率 对 是 可 达 的 : 








P 

R, = W log (1 + nw) (15-150) 
P 

R, = Walog (1 + wi) (15-151) 


当 改 变 Wi 与 W; 时, 可 得 出 如 图 15- 18 所 示 的 曲线 。 该 曲线 与 容量 区 域 的 边界 有 一 接触 点 , 该 
点 意味 着 分 配给 每 个 信道 的 带宽 与 该 信道 的 功率 成 比例 。 我 们 可 得 出 这 样 的 结论 : 对 于 若干 个 
电台 ,只 有 当 所 有 分 配 的 带宽 与 对 应 的 功率 成 正比 时 , 对 应 的 频带 分 配方 案 才 是 最 优 的 。 

在 时 分 多 址 (time-division multiple access，TDMA) 中 ,时 间 被 分 割 为 时 段 ， 每 个 用 户 只 允许 在 
指定 时 段 内 传输 而 其 他 用 户 等 待 。 如 果 有 两 个 用 户 且 功率 均 为 P, 那么 一 个 发 送 另 一 个 等 待 情 
形 的 码 率 为 CCPZN) 。 现 假设 时 间 分 为 等 长 时 段 ， 且 奇数 时 段 分 配给 用 户 1 而 偶数 时 段 分 配给 


用 户 2, 那么 每 个 用 户 可 达 的 平均 传输 率 仅 为 二 C( P/N)。 该 系统 称 为 村 素 的 时 分 多 址 系统 








Un 
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(TDMA)。 但 是 , WRAP 1 只 发 送 一 半 时 间 , 且 在 发 送 期 间 使 用 两 倍 的 功率 , 并 且 依 然 保持 平 
均 功率 约束 条 件 不 变 也 是 可 以 的 。 在 这 种 修正 下 , 每 个 用 户 使 用 过 CCPLN) 传 输 速率 发 送信 息 
是 可 能 的 。 通 过 改变 分 配给 每 个 用 户 的 时 段 的 长 度 (以 及 在 该 时 段 的 瞬时 功率 )， 可 以 达到 与 具 
有 不 同 频带 分 配 的 FOMA 方法 相同 的 容量 区 域 。 

如 图 15-18 Bras, 容量 区 域 一 般 大 于 分 时 操作 法 或 Rh 
分 频 多 路 法 可 达到 的 码 率 集 合 。 然 而 注意 , 对 所 有 发 送 
器 只 要 使 用 同一 个 译 码 器 就 可 以 达到 前 面 导 出 的 多 接 人 c(%) 
容量 区 域 。 但 是 , ETA AAA ` 
域 , 该 方法 剥离 了 一 -个 公用 译 码 器 , 取而代之 , 用 一 系 
列 的 单 用 户 编码 。CDMA 达到 整个 容量 区 域 , 并 在 不 改 cf P, JH 
变 当前 用 户 编码 的 情况 下 使 得 新 用 户 很 容易 进入 。 另 一 
方面 , TOMA 与 FDMA 系统 通常 是 为 固定 群体 设计 且 可 
以 让 一 些 时 段 空置 ( 当 实 际 用 户 数 少 于 时 段 数 时 ) 或 者 ` 
证 一 些 用 户 离线 ( 当 用 户 数 大 于 时 段 数 时 )。 但 在 许多 实 ° c( a) c (=) Ri 
际 应 用 的 系统 中 , 设计 的 简洁 性 是 一 个 重要 的 考核 指 
标 , 前 面 介绍 过 的 多 接 人 想法 来 提高 信道 容量 , 我 们 可 图 15-18 FDMA 和 TDMA 高 斯 
以 发 现 容量 区 域 的 扩大 不 是 复杂 度 增 加 的 充分 条 件 。 多 接 人 信道 容量 

对 具有 m 个 功率 为 P,P:,…,P, 的 信 源 以 及 功率 N 的 环境 噪声 的 高 斯 多 接 人 系统 , 任何 集 
合 S 有 高 斯 公式 平移 为 下 列 形 式 

















SIR, = 穿 过 曲面 S 的 信息 流 的 总 码 率 (15-152) 
i€S 
DUP; 
<C N (15-153) 








15.4 相关 信 源 的 编码 


现在 探讨 分 布 式 数 据 压 缩 。 在 许多 方面 , 数据 压缩 与 多 接 人 信道 问题 是 对 偶 的 。 我 们 已 经 知 
道 如 何 对 单个 信 源 X 进行 编码 , 码 率 R> 开 (X) 是 充分 的 。 假 如 有 两 个 信 源 (X,Y)~p(z,y)。 
车 将 它们 一 起 编码 ， WER HX, YERS. BE, 对 于 希望 重 构 X 与 了 的 某 些 用 户 来 说 ， 
这 意味 着 必须 将 X 信 源 与 了 信 源 分 开 描 述 , 此 时 码 率 如 何 ? 显然 , BX SY 分 开 编码 , 码 率 
R=R,+R,>H(X)+ H(Y) 是 充分 的 。 但 是 , 在 Slepian 与 Wolf[502] 的 令 人 称奇 的 重要 论文 
中 , 证 明了 即使 对 相关 信 源 进行 分 开 编码 ， 总 码 率 R= 互 (X,Y) 也 是 充分 的 。 

设 (X;,Y1),( 义 ,,Y,),… 为 独立 同 分 布 且 服 从 p(z,y) 的 联合 分 布 的 随机 变量 序列 。 假 定 X 
序列 处 于 位 置 A，Y 序列 处 于 位 置 B, 如 图 15-19 所 示 。 





图 15-19 ”Slepian-Wolf 编码 
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在 证 明 这 个 结论 之 前 , 先 给 出 一 些 定义 。 
定义 meyer YKI (2R: 27%), n) SAW AA W. He AG (distributed source code) 包 含 两 个 
编码 映射 ， 


fi&r 一 22 (15-154) 
fxr > 41,2, 07°, 27% | (15-155) 

与 一 个 译 码 映射 ， 
gill, 2, 27} x 11,2, 2%} > Xr x Yn (15-156) 


这 里 ， 户 (2 和) 对 应 于 X 的 下 标 ， 户 (到 ) 对 应 于 Y FER (Ry, Ro) SHS ET 
定义 ”分 布 式 信 源 编码 的 误差 概率 定义 为 
~ PP = P(g), fol ¥")) A (X,Y) (15-157) 
EX RGR, Ry) SPORE TK), URE TE— IR 2") ,n) 分 布 式 信 
源 编码 , 其 误差 概率 P\* 0。 可 达 码 率 区 域 为 所 有 可 达 码 率 集合 的 闭 包 。 
定理 15.4.1(Slepian-Wolf) F i.i.d.~ plr y) R(X, Y) 的 分 布 式 信 源 编码 问题 ， 
可 达 码 率 区 域 由 下 面 的 式 子 给 出 


R,> H(X/Y) (15-158) 
R,> H(Y!X) (15-159) 
R, + R> H(X,Y) (15-160) 


我 们 给 出 -一 些 例 子 说 明 该 结论 。 
例 15.4.1 考虑 Gotham( 美 国 纽约 市 的 别名 ) 与 Metropolis 的 天 气 情况 。 假 设 Gotham 为 晴天 
的 概率 为 0.5，Gotham 与 Metropolis 有 相同 天 气 的 概率 为 0.89。 天 气 的 联合 分 布 如 下 : 


b 
Metropolis 


p(x,y) 













Gotham 
下 十 


假设 要 传送 100 天 的 气象 资料 给 华盛顿 的 国家 气象 服务 总 部 。 在 两 地 都 可 传送 100 比特 的 
气象 资料 , 从 而 总 传送 可 以 是 200 比特 。 若 决定 将 信息 独立 地 压缩 , 则 我 们 在 每 地 仍然 要 传送 
100H(0.5) = 100 比特 的 信息 , 而 需要 总 传送 200 比特 。 然 而 , 如果 使 用 Slepian-Wolf 编码 , 那么 
总 共 只 需要 传送 W(X) + H(Y|X)=100H(0.5)+100H(0.89)=100+50=150 比特 。 

例 15.4.2 考虑 下 面 的 联合 分 布 : 





此 时 , 传输 该 信 源 所 需 的 总 码 率 为 H(U)+ H(V1U)=log3=1.58 比特 , 如 果 不 使 用 Slepian- 
Wolf 编码 , 那么 要 独立 传输 这 些 信 源 所 需 的 总 码 率 是 2 比特 。 
15.4.1 Slepian-Wolf 定理 的 可 达 性 

我 们 现在 来 证 明 Slepian-Wolf 定理 中 的 码 率 可 达 性 。 在 进入 证 明之 前 , 介绍 利用 随机 盒子 方 
法 得 到 的 一 种 新 编码 方案 。 随 机 盒子 的 基本 思想 与 散 列 函数 非常 类 似 : 为 每 个 信 源 序列 随机 地 
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选取 一 个 下 标 。 若 典型 信 源 序列 集 足 够 小 (或 者 等 价 地 ， 散 列 函 数 的 取 值 空间 足够 大 ), 则 不 同 的 
信 源 序列 有 不 同 下 标的 概率 很 高 , 并 且 可 以 用 对 应 的 下 标 恢复 出 信 源 序列 。 

让 我 们 考虑 该 思想 对 单一 信 源 的 编码 应 用 问题 。 第 3 章 使 用 过 的 方法 是 对 典型 集中 的 所 有 
元 素 给 出 下 标 , 但 不 考虑 典型 集 以 外 的 元 素 。 下 面 描述 一 下 随机 盒子 流程 , 它 首先 对 所 有 序列 给 
出 下 标 , 但 在 以 后 的 步骤 将 非典 型 序列 删除 。 

考虑 下 面 的 流程 : 对 每 个 序列 XY ， 从 {1,2,… ,2 中 | 中 随机 取出 一 个 下 标 。 由 相同 下 标的 序 
列 X" 构成 的 集合 可 以 视 为 形成 了 一 个 盒子 (bin)。 这 可 以 看 作 首 先 放置 了 一 排 盒 子 , 然后 将 X” 
随机 地 投入 盒子 中 。 要 想 通 过 盒子 的 下 标 将 信 源 译 码 , 我 们 从 盒子 中 找 出 一 个 典型 X 序列 。 如 
果 该 盒子 中 有 且 仅 有 惟一 的 典型 序列 X, 将 其 作为 对 信 源 序列 的 估计 Xx"; BAR, 宣布 出 错 。 

上 面 的 流程 定义 了 一 个 信 源 码 。 为 了 分 析 该 编码 的 误差 概率 ， 现 将 X 序列 分 成 两 类 : 典型 
序列 与 非典 型 序列 。 若 信 源 序列 是 典型 的 , 则 对 应 该 典型 序列 的 盒子 将 至 少 包 含 一 个 典型 序列 
( 信 源 序列 本 身 )。 因 此 ,只 有 当 盒 子 中 超过 一 个 典型 序列 时 才 会 出 错 。 如 果 信 源 序列 是 非典 型 
的 , 则 总 出 错 。 但 是 , 若 盒子 的 数目 远 远大 于 典型 序列 的 数目 时 ，! 个 盒子 中 含有 超过 一 个 典型 
序列 的 概率 非常 小 。 因 此 ,典型 序列 被 译 码 出 错 的 概率 将 会 非常 小 。 

下 面 我 们 给 予 严格 的 叙述 。 设 /和 ) 为 对 应 于 X 的 盒子 的 下 标 。 译 码 函 数 记 为 g。 误 差 概 
率 (关于 随机 选取 的 编码 上 取 均 值 ) 为 

P(g(f(X)) AX) PXE AM) + DPC AX Axx E AM, f(x) 


= f(x)) p(x) 

et 之 Š. POX) = f(x)) p(x) (15-161) 

<et) > 2 "Rp(x) (15-162) 

= e 十 > ES pla (15-163) 
xea” x 

<e+ 2" (15-164) 
xEA™ 

< e + DH +e) 2 aR (15-165) 

<2e (15-166) 

如 果 R>H(X) +e Hn 充分 大 。 因 此， BRATAN, 误差 概率 可 任意 的 小 , 且 该 编码 与 第 3 


章 中 描述 的 编码 具有 相同 的 结论 。 

上 面 的 例子 说 明 这 样 一 个 事实 : 有 很 多 的 方法 可 以 用 来 构造 具有 很 低 的 误差 概率 且 码 率 大 
于 信 源 炳 的 编码 。 通 用 信 源 编码 就 是 这 种 编码 的 另 一 个 例子 。 注 意 , 装 盒子 方法 中 , 除了 译 码 器 
之 外 ,编码 器 并 不 要 求 对 典型 集 的 特性 有 清楚 的 认识 。 正 是 这 个 性 质 使 得 该 方案 对 分 布 式 信 源 
情形 照样 适用 , 对 此 我 们 将 会 在 定理 的 证 明 中 说 明 。 

现在 回 到 分 布 式 信 源 编码 与 Slepian-Wolf 定理 中 码 率 区 域 的 可 达 性 的 证 明 中 来 。 

证 明 ( 定 理 15.4.1 中 的 可 达 性 ): 证 明 的 基本 思想 是 将 * 空间 划分 为 AET, 》" 空间 划 
分 为 2 天 :个 盒子 。 

随机 码 的 生成 。 根 据 |1,2,…,2| 上 的 均匀 分 布 , 将 每 个 xE 区" 独立 地 分 配 到 2 个 盒子 
中 的 一 个 。 类 似 地 , 随机 地 将 YEJ7* 分 配 到 2 到 :个 盒子 中 的 一 个 。 然 后 ,将 分 配方 案 及 与 户 对 
编码 器 与 译 码 器 都 公 SFF o 
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编码 。 发 送 器 1 RIX X MERET TR. RIEA 2 RIK Y RERET FER 

译 码 。 给 定 接收 到 的 下 标 对 (io,jo), MRAP TE FETE MPA (x,y) EAM 使 得 户 (x) = 
ios f(y) =jo。 那么 宣称 (Xx,y) = (x,y)。 否 则 , 宣布 出 错 。 该 方案 如 图 15-20 所 示 。X 序列 构成 
的 集合 与 Y 序列 构成 的 集合 按 如 下 方式 分 配 到 盒子 中 : 一 对 下 标 特 指 一 个 乘积 盒子 。 











HAY ) 


个 联合 典型 序列 对 
G”, y”) 


图 15-20 Slepian-Wolf 编码 : 联合 典型 对 由 乘积 盒子 分 离开 
误差 概率 。 设 (X;， Y)~p(zx,y), 定义 事件 


Eo= {(X,Y)¢ AC} (15-167) 
E= {3x EX: fx) = AX Elx ,Y) © AW} (15-168) 
E,= {dy Æ Y: p(y) = HY) E(X,y) € AW} (15-169) 


以 及 
Ew= {3(x,y):x #Xy AYA) 
= AX), Y) = N) B(x ,y) E Am} ` (15-170) 
其 中 X,Y, 广 与 户 是 随机 的 。 当 (X,Y) 不 在 A” 中 , 或 同一 盒子 中 有 另 一 典型 序列 时 ,， 译 码 出 
错 。 因 此 , 对 事件 之 并 有 如 下 事件 的 界 ， 


P= P(E; U E, U E, U Ew) | (15-171) 
< P(Eo) + P(E;) + P(E.) + P(E,) (15-172) 
首先 考虑 Ey. H AEP, P(E) >0. AM, 当 n 充分 大 时 , P(Eo)<e。 为 了 界定 P(E;), 我 们 有 
P(E) = Plax ÆX: Ai) = AX), A(x ,Y) € AY} (15-173) 
= > p(x y) Pt 3x Ax: f(x’) = f(x), (x ,y) E AM} (15-174) 

(x,y) 
<D pty) >) PX) = fio) (15-175) 

(x,y) xx 
(x yea” 

= D p(x,y)2-™ | A(X y) | (15-176) 

(x,y) 
<22 HOY +) (由 定理 15.2.2) (15-177) 


所 以 , 4R,>HCX|Y) Bt, P(E1) 趋 向 于 0。 因此 , 对 充分 大 的 n, 有 了 P(E1)<e。 同 理 , 当 R> 
HCY|X), Bn 充分 大 时 , 有 P(E;)<e。 以 及 当 Ri+ R>H(X, Y), BP(Ey)<e. AT 
平均 误差 概率 <4e，, 故 至 少 存在 一 个 码 ( 放 , f? ,g* ), 其 误差 概率 <4e。 因 此 , 我 们 可 构造 出 一 
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554| 个 码 序 列 , 使 Pl” 一 0。 这 就 完成 了 可 达 性 的 证 明 。 口 
15.4.2 Slepian-Wolf EAE 
Slepian-Wolf 32 38 AS i x 3 FH ARE eB, 但 是 为 了 完整 起 见 , 我 们 依然 
将 其 给 出 。 
证 明 ( 定 理 15.4.1 HUSH): 一 如 既往 ， 从 费 诺 不 等 式 人 手 。 固 定 ff，f; 和 g。 记 
Ip = f(X"), Jo= fY") M 


H(X” , Y” Ip, Jo) < Pn Cog] X| + log] Y|) +1 = ne, (15-178) 
其 中 当 mn 一 co 时 ,es>0。 现 在 加 入 条 件 , 则 我 们 又 有 
H(X" | Y”, Io, Jo) S ne, (15-179) 
以 及 
HCY" |X", Ig,J0) < ne, (15-180) 
由 此 我 们 可 得 如 下 的 系列 不 等 式 
n(R, + Ry) Hy Jo) (15-181) 
= 1(X", Y"3Ig,Jo) + HUo.Jo| X", Y”) (15-182) 
= X,Y"; lo, Jo) (15-183) 
= H(X", Y”) - H(X", Y” | Io, Jo) (15-184) 
SH(X", Y”) - ne, (15-185) 
© nH(X,Y) ~ ne, (15-186) 


其 中 
(a) 由 .E11,2,… ,2 下 与 J0E {1,2,7,2 | EBM, 
(b) 由 有 为 和 的 函数 与 Jo AY" 的 函数 得 到 ， 
(c) 由 费 诺 不 等 式 (15-178) 得 到 ， 
555) ss (d) 由 链 式 法 则 与 (X,Y;) 为 i.i.d. 得 到 。 
类 似 地 , 利用 式 (15-179), 我 们 有 


nR SH (Ip) (15-187) 

> H(I] Y”) (15-188) 

= 1(X"3I)| Y") + H(Io| X", Y”) o (15-189) 

IX; l Y") (15-190) 

= H(X: |Y") — H(X" |Io, Jo, Y") (15-191) 

SSH(X"|Y") - ne, (15-192) 

2 n(H)(X/Y) - ne, (15-193) 

理由 与 前 面 的 方程 相同 。 同 理 , 我 们 可 证 明 

nR, > nH(Y |X) - ne, (15-194) 


不 等 式 两 边 同时 除 以 n, 并 令 n 一 co 取 极 限 , 我 们 就 可 得 到 想 要 证 明 的 逆 定 理 。 口 
Slepian-Wolf 定理 中 所 描述 的 码 率 区 域 如 图 15-21 所 示 。 . 


网 络 信息 论 317 








HY |X) 





— 


0 T T 
HXIY) HX) R, 


图 15-21 Slepian-Wolf 编码 的 码 率 区 域 


15.4.3 多 信和 源 的 Slepian-Wolf 定理 

15.4.2 节 的 结论 可 轻易 推广 至 多 信 源 情形 。 证 明 步 又 完全 相同 。 

定理 15.4.2 (Xi Xz ,Xi) 为 ii.d 一 户 (ziyzzzm)， 那 么 对 任何 具有 多 个 分 开 的 
编码 器 与 一 个 公共 译 码 器 的 分 布 式 信 源 编码 , 它 的 所 有 可 达 码 率 向 量 的 集合 满足 对 任意 的 SC 
11,2,…,m|, 有 


R(S) > H(X(S)| X(S’)) (15-195) 
其 中 
R(S) = SOR; (15-196) 
iES 


A X(S)=1X):7€ St. 

证 明 : 证 明 与 两 个 随机 变量 的 情形 相同 , 在 这 里 省 去 。 口 

Xt i.i.d. 相关 信 源 的 Slepian-Wolf 编码 的 可 达 性 已 经 得 到 了 证 明 , 然而 , 该 证 明 可 轻易 地 推 
广 到 满足 AEP 的 任意 联合 信 源 情形 ; 特别 地 , 其 可 推广 到 所 有 的 联合 遍历 信 源 [122j] 情 形 。 此 
时 , BAKRE PHRA RERET 
15.4.4 Slepian-Wolf 编码 定理 的 解释 

我 们 将 利用 图 着 色 方 式 对 Slepian-Wolf 编码 中 码 率 区 域 的 转角 点 给 出 解释 。 考 虑 码 率 为 R= 
H(X)，R;= H(Y|X) 的 点 。 使 用 nH(X) 比 特 , 我 们 可 n 
XiX 进行 有 效 编码 ， 且 译 码 器 能 以 任意 小 的 误差 概率 
eX" 重 构 。 但 是 , 怎样 才能 用 nH(Y|X) 比 特 将 Y" 进 
行 编码 ?如 图 15-22 所 示 , 用 典型 集 的 观点 看 该 图 , 我 
们 可 看 出 , 与 每 个 给 定 的 X 形成 联合 典型 的 所 有 Y F 
列 组 成 一 个 典型 “扇形 ”。 

OY 编码 器 知道 Y, 编码 器 可 发 送 该 典型 记 区 中 
的 Y 的 下 标 。 译 码 器 也 知道 X" , 则 可 建立 起 该 典型 户 
K, 从 而 重 构 出 Y。 但 是 ，Y 编码 器 并 不 知道 X*。 因 
此 , 不 尝试 确定 典型 扇形 , 该 换 成 随机 地 用 2 下 种 颜色 图 15-22 联合 典型 扇形 
对 所 有 Y 个 序列 着 色 。 若 颜色 的 数目 足够 大 , 则 在 特定 扇 区 中 的 所 有 颜色 将 会 不 同 (概率 很 大 ) 
E Y 序列 的 颜色 将 会 惟一 地 定义 Xr? 扇形 中 的 Y 序列 。 若 码 率 R,>H(Y|X), 则 扇形 中 的 颜 
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色 数 目 相对 扇形 中 的 元 素数 目 是 指数 增 大 , 我 们 可 证 明 该 方案 的 误差 概率 将 以 指数 衰减 。 
15.5 Slepian-Wolf 编码 与 多 接 入 信道 之 间 的 对 偶 性 


对 于 多 接 人 信道 , 我 们 考虑 了 在 一 个 双 输 入 与 单 输出 的 信道 上 发 送 独 立 消 息 的 问题 。 而 对 
Slepian-Wolf 编码 , 我 们 考虑 了 在 无 噪声 信道 上 发 送 相关 信 源 , 并 使 用 一 个 公共 的 译 码 器 重 构 两 
个 信 源 的 问题 。 本 节 我 们 探讨 这 两 个 系统 的 对 偶 性 。 

在 图 15-23 F, 两 则 独立 的 消息 以 序列 X 与 X 的 形式 经 信道 被 发 送出 去 。 接 收 器 通过 接 
收 到 的 序列 来 估计 这 两 则 消息 。 在 图 15-24 F, 相关 信 源 编码 为 "独立 "消息 i 与 j。 接收 器 利用 
i 与 7 的 知识 来 估计 信 源 序列 。 


W — xX 
PCY) 了 一 一 一 (WW) 


W, — X 


K 15-23 多 接 入 信道 





图 15-24 相关 信 源 编码 


在 多 接 入 信道 的 容量 区 域 可 达 性 的 证 明 中 , 我 们 用 到 了 从 消息 集 到 序列 X XS 的 一 个 随 
机 映射 。 而 在 对 Slepian-Wolf 编码 的 证 明 中 , RII MAB AX" 5X 序列 集 到 某 个 消息 集合 的 
一 个 随机 映射 。 在 多 接 入 信道 编码 定理 的 证 明 中 , 误差 概率 满足 不 等 式 
PM<et > Pr( 与 接收 到 的 序列 构成 联合 典型 的 码 字 )》 (15-197) 
=e Some Das >) 27% (15-198) 
Rt Ro 
其 中 e 为 序列 是 非典 型 的 概率 ， `R, 为 码 率 ， 对 应 FR 献 误差 概率 的 码 字数 目 。 而 L 为 相应 的 互 
信息 , 对 应 着 码 字 与 接收 到 的 序列 为 联合 典型 的 概率 。 
在 Slepian-Wolf 编码 情形 中 ,误差 概率 可 以 表达 为 
PM<et ede ，Pr( 具 有 相同 码 字 ) (15-199) 


=e DZA Heke Dram (15-200) 


其 中 ， 不 满足 AEP 限制 的 概率 的 上 界 仍然 是 。， 而 另外 的 项 则 表示 ; 当 给 定 信 源 对 时 , 一 对 序列 
或 者 是 联合 典型 的 ,或 者 在 同一 盒子 中 等 情况 。 
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多 接 人 信道 与 相关 信 源 编码 的 对 偶 性 至 此 已 是 显而易见 的 了 。 这 两 个 系统 彼此 对 偶 是 相当 
令 人 意外 的 , 人 们 也 许 原 本 期 待 的 是 广播 信道 与 多 接 人 信道 的 对 偶 性 。 


15.6 广播 信道 


广播 信道 是 具有 单个 发 送 器 与 两 个 或 更 多 接收 器 的 通信 信道 , 如 图 15-25 所 示 。 广 播 信道 的 
基本 问题 是 求 广播 信道 中 通信 的 同时 的 可 达 码 率 集 。 在 开始 分 煌 之 前 ， 先 来 考虑 一 些 例子 。 





图 15-25 广播 信道 


例 15.6.1( 电 视 台 ) 广播 信道 最 简单 的 例子 是 无 线 电 台 或 电视 台 。 但 是 该 例子 在 一 定 程 度 
上 有 些 退 化 。 通 常 电台 要 发 送 相同 的 信息 给 所 有 接收 该 台 的 人 , 所 以 , 容量 实际 上 是 maxa) 
mind (X; Y;), 这 可 能 比 最 差 的 接收 器 的 容量 还 要 小 。 然 而 , 我 们 可 能 期 望 将 信息 以 如 下 方式 安 
HE, 使 得 较 好 的 接收 器 可 接收 到 额外 的 信息 , 其 产生 出 更 好 的 画面 或 者 声音 ; AN, 较 差 的 接收 
器 依旧 能 够 接收 到 更 基本 的 信息 。 当 电视 台 采 用 高 清晰 电视 (HDTV), 其 需要 将 信息 进行 编码 使 《|560 
得 较 差 的 接收 器 依然 接收 到 常规 的 信号 ， 而 较 好 的 接收 器 将 接收 到 额外 的 高 清晰 信号 信息 。 实 
现 该 想法 的 方法 将 在 广播 信道 的 讨论 部 分 给 出 。 

例 15.6.2( 教 室 中 的 讲演 者 ) 教室 中 的 讲演 者 要 把 信息 传达 给 班 上 的 学 生 。 鉴 于 学 生 间 存 
在 的 差异 性 , 他 们 接收 到 的 信息 量 是 不 同 的 。 一 些 学 生 收 到 大 部 分 的 信息 ; 另 一 些 仅 接收 到 一 小 
部 分 。 在 理想 的 情况 下 , 讲演 者 可 整理 其 讲演 使 得 好 的 学 生 可 接收 到 更 多 的 信息 , 而 很 差 的 学 生 
也 至 少 接收 到 最 基本 量 的 信息 。 但 是 , 没有 备 好 课 的 讲演 者 却 会 按 最 差 的 学 生 的 步调 来 进行 。 

这 是 广播 信道 的 男 一 个 例子 。 

例 15.6.3( 正 交 广 播 信 道 ) 最 简单 的 广播 信道 由 到 两 个 接收 器 的 两 条 独立 信道 组 成 。 对 此 
情形 , 我 们 可 在 两 条 信道 上 发 送 独 立 的 信息 , 并 且 当 
Ri<Ci,R2<C2: 时 , 对 于 接收 器 1, 我 们 可 以 达到 码 
率 R, 对 于 接收 器 2, 我 们 可 以 达到 码 率 R,。 容 量 区 © 
域 如 图 15-26 所 示 的 长 方形 。 

例 15.6.4( 西 班 牙 语 与 荷兰 语 讲演 者 ) 为 了 揭示 
Smee, 将 考虑 以 下 的 简化 例子 。 有 一 个 讲演 
者 , 会 讲 西班牙 语 与 荷兰 语 ; 有 两 个 听众 : 一 个 只 懂 


R, 





西班牙 语 , 另 一 个 只 懂 荷 兰 语 。 为 简单 起 见 , ER o aR 
种 语言 的 单词 量 为 22, 讲演 者 对 每 种 语言 都 是 以 每 秒 N 

5-26 ”两 个 正 交 广播 信道 的 容量 区 域 
1 个 单词 的 速度 说 话 。 如 果 他 一直 对 听众 工 讲话 而 不 “! a 61 


理会 听众 2, 那么 他 可 以 每 秒 20 比特 的 信息 量 向 听众 1 传递 信息 。 同 样 ， 如 果 他 不 理会 听众 1， 
那么 他 也 可 以 每 秒 20 比特 的 信息 量 向 听众 2 传递 信息 。 因 此 , 通过 简单 的 分 时 操作 , 他 可 以 达 
到 满足 Ri+ R.=20 的 任何 码 率 对 。 但 是 , 他 是 否 还 可 做 得 更 好 ? 
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注意 , 对 于 荷兰 语 听众 , 即使 他 不 懂 西 班 牙 语 , 但 是 , 他 可 识别 出 何 时 演讲 者 说 的 是 西班牙 
语 。 同 样 ， 对 于 西班牙 语 听众 , 他 也 能 识别 何 时 是 荷兰 语 。 讲 演 者 可 以 采用 如 下 方式 传达 信息 。 
譬如 , 他 使 用 每 种 语言 的 时 间 均 占 30% , 那么 , 一 个 由 100 个 单词 组 成 的 序列 , 其 中 大 约 50 个 为 
荷兰 语 ，50 个 为 西班牙 语 。 但 是 , 对 西班牙 语 和 荷兰 语 单词 的 排列 有 许多 种 方式 ; 事实 上 , KA 


a (EO a0 CA 种 排列 单词 的 方式 。 选 取 一 种 排列 来 对 两 类 听众 传递 信息 。 该 方法 可 使 讲演 


者 以 每 秒 10 比特 的 码 率 对 荷兰 语 听 众 , 每 秒 10 比特 的 码 率 对 西班牙 语 听 众 , 且 每 秒 1 比特 的 公 
共 信 息 对 两 类 听众 , 共计 每 秒 21 比特 的 码 率 对 两 位 听众 传递 信息 。 这 比分 时 操作 可 达 的 码 率 要 
高 。 这 就 是 一 个 信息 玖 加 的 例子 。 

广播 信道 的 结论 同样 可 应 用 于 具有 未 知 分 布 的 单 用 户 信道 情形 。 此 时 , 我 们 的 目标 是 当 信 
REM, 至少 要 获得 最 低 限 度 的 信息 ,而 当 信 道 很 好 时 , 要 获得 超额 的 信息 。 我 们 可 用 广播 信 
道中 关于 区 加 的 讨论 , 求 得 可 发 送信 息 的 码 率 。 
15.6.1 广播 信道 的 定义 

定义 ”一 个 广播 信道 (broadcast channel) 是 由 输入 字母 表 七 ,两 个 输出 字母 表 J1 V, 以 及 一 


个 概率 转移 函数 p(yi ,yz1z) 组 成 的 系统 。 如 果 pOL) = T] (yu yo 二 )， BART 


播 信道 为 无 记忆 (memoryless) 的 。 
仿照 多 接 人 信道 , 我 们 来 定义 广播 信道 的 编码 , 误差 概率 、 可 达 性 和 容量 区 域 。 发 送 独立 信 
息 的 广播 信道 的 一 个 ((2”， 22), nn ) 码 是 由 以 下 要 素 组 成 : 


一 个 编码 器 ， 
X: (11,2, 2% x 和 22) 一 十" (15-201) 

以 及 两 个 译 码 器 ， 
By: > [1,2,7,2] (15-202) 

和 
gV —> {1,2,7,2} (15-203) 
“我 们 将 平均 误差 概率 定义 为 译 码 后 的 消息 不 同 于 发 送 消息 的 概率 ， 即 

POO = P(g (YDAW 或 gY) A Wo) (15-204) 


其 中 9 假设 ( Wi, Wi) 278 x28: 上 服从 均匀 分 布 。 

定义 ”对 于 广播 信道 , 如 果 存 在 一 列 ((2 2%) ,m) 码 ，P4->0, 那么 称 码 率 对 ( 尺 ;,R2z) 是 
可 达 的 。 

我 们 接 下 来 定义 当 公共 信息 发 送 给 两 个 接收 器 情形 下 的 码 率 。 对 于 一 个 带 公 共 信 息 的 广播 
信道 , 一 个 (2 28,2") n ISH FRR: 


一 个 编码 器 
X: (11,2 27} x 11,2577, 27} x {1,2,.,28)) > A (15-205) 
以 及 两 个 译 码 器 i 
gV — {1,2,2} x {1,2,2 ] (15-206) 
和 
B13 > 和 22 x {1,2,0,2} (15-207) 


假设 关于 ( Wu。, Wi, W2) 的 分 布 为 均匀 分 布 ,我们 可 定义 误差 概率 为 译 码 后 的 消息 不 同 于 发 送 消 
息 的 概率 : 
pw = P(g, (Y7) fF (Wo; W,) 或 gZ) +£ (Wos W,)) (15-208) 
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定义 ”如 果 存 在 一 个 ((2"5 ,2 中 2%.) nn ) 码 序列 使 P0, 那么 称 码 率 三 元 组 ( Ro, Ri， 
R,) 关 于 带 公 共 信 息 的 广播 信道 是 可 达 的 。 
定义 “广播 信道 的 容量 区 域 为 所 有 可 达 码 率 的 集合 的 闭 包 。 
我 们 观察 到 接收 器 Yi 的 误差 仅 依赖 于 分 布 p(x", yi) 而 不 是 联合 分 布 p(x”, yi y) TE, 
我 们 得 到 下 面 的 定理 ; 
定理 15.6.1 广播 信道 的 容量 区 域 仅 依 赖 于 条 件 边际 分 布 plylr)5 六 (yz|z)。 
证 明 : 留 作 习题 。 O 
15.6.2 退化 广播 信道 
定义 ” 称 一 个 广播 信道 是 物理 退化 的 (physically degraded) ， 如 果 其 转移 概率 满足 
plyisy2 {x) = pyi x) p(y y) 
定义 ” 称 广播 信道 是 随机 退化 的 (stochastically degraded) ， 如 果 其 条 件 边际 分 布 与 一 个 物理 
退化 广播 信道 相同 ， 即 车 存在 分 布 p(y,| oi), 使 得 
pyl zx) = 2 p(y | zx)p’ (yzl y) ` (15-209) 


注意 到 由 于 广播 信道 的 容量 仅 依赖 于 条 件 边 际 分 布 ， 随机 退化 广播 信道 的 容量 区 域 与 相应 
的 物理 退化 信道 是 相间 的 。 因 此 , 在 下 面 的 大 部 分 讨论 当中 , 我 们 将 会 假设 信道 是 物理 退化 的 。 
15.6.3 退化 广播 信道 的 容量 区 域 
我 们 接 下 来 考虑 在 退化 广播 信道 中 分 别 以 码 率 R AR, 对 OY, M Y, 发 送 独 立信 息 。 
定理 15.6.2 在 退化 广播 信道 X-> Y Y, 上 发 送 独立 信息 的 容量 区 域 为 满足 下 列 条 件 的 
HACR ,R;) 构 成 集合 的 西 闭 包 ,， 即 如 果 存 在 某 个 联合 分 布 p(wu)p(xiu)ply1,y21x), 使 得 
R< I(U; Y2) (15-210) 
R< I(X;Y, | U) (15-211) 
其 中 辅助 随机 变量 UHBRAERIU | Smin], 1X], lY] }o 
证 明 ; (辅助 随机 变量 U 的 基数 的 上 界 可 以 由 凸 集 理论 中 的 标准 方法 导出 ,这 里 不 作 详 述 。) 
我 们 首先 简要 概括 对 广播 信道 的 辣 加 编码 的 基本 思想 。 辅 助 随机 变量 U 视 为 可 被 接收 器 Yi; 与 
YY, 识别 出 来 的 聚 类 中 心 (cloud center) 。 每 个 聚 类 由 可 被 接收 器 Yi 识别 的 2 中 个 码 字 X” 组 成 。 
最 差 的 接收 器 仅 能 看 见 聚 类 , 然而 较 好 的 接收 器 可 识别 聚 类 中 的 各 码 字 。 该 区 域 的 可 达 人 性 的 正 
式 证 明 用 到 了 随机 码 方法 : 固定 p(w) 与 p(x|u)。 


随机 码 簿 的 生成 。 依 据 分 布 ] pCa) Hee PBEM # 的 独立 码 字 Uw), w€ 11,2, 


1208} 。 对 每 个 码 字 UCw2), 由 [T pCl u Cw VER RAMTE X w w) Ruli) 


起 着 可 被 Y 与 Y 认 知 的 聚 类 中 心 的 作用 , 而 x(i 7) 为 第 i 个 聚 类 的 第 7 个 附属 码 字 。 

编码 。 为 了 发 送 ( Wi ， W.), 必须 发 送 相对 应 码 字 X(Wi, W,)。 

译 码 。 接收 器 2 确定 惟一 的 请,， IEUW), Y,)€ A”, WW, 不 存在 或 者 不 惟 

—, 则 宣布 出 错 。 

接收 器 1 SRE — WW, WEU), XW, W2), VIE AM. MRC), 
六 )) 不 存在 或 者 存在 不 惟一 ,那么 宣布 出 错 。 

误差 概率 分 析 。 由 编码 生成 过 程 的 对 称 性 知 , 误差 概率 并 不 依赖 于 发 送 的 具体 是 哪个 码 字 。 
因此 , 不 失 一 般 性 , 不 妨 假设 (Wi, W;) = (1,1) 是 发 送 的 消息 对 。 令 P(' ) 表 示 在 已 知 (1,1) 被 发 
送 的 条 件 下 一 个 事件 的 条 件 概率 。 

由 于 我 们 实质 上 拥有 从 UA Y, 的 单 用 户 信 道 , 那么 , 如 果 R,< 1(U;Y,), 我 们 就 能 够 以 


Cn 
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小 的 误差 概率 将 U 码 字 译 码 。 要 证 明 这 一 点 , 我 们 定义 事件 


Ey; = (UG), Y2) € A} (15-212) 
则 接收 器 2 处 的 误差 概率 为 
PI (2)= P(By, UUEr) (15-213) 
< P(E) + >) P(Ey) (15-214) 
< e + 2RQ-2 UUs ¥,) 28) (15-215) 
<2 (15-216) 


4 n BK, 且 R,<I(U;Y,)。 其 中 式 (15-215) 由 AEP 得 到 。 同 样 地 , 对 于 接收 器 1 的 译 码 ， 
我 们 定义 事件 


Ey= {(UG),¥,) € A) (15-217) 
Ey,= {(U(i),X(i,7),Y1) € AM} (15-218) 
其 中 , 一 符号 表示 所 定义 的 事件 对 应 于 接收 器 1。 于 是 , 我 们 有 关于 误差 概率 的 不 等 式 
PM(1)= P(E U EYn UUEy UUEv;) (15-219) 
< P(E¥;) + P(Esyn) + 2) P(Ey:) + >) P(Ey,) (15-220) 
il jz 


与 接收 器 2 相同 , 我 们 有 不 等 式 P(By) <2" 0 -0, 因此 , 当 R<I(U; Y Dif, 第 三 项 趋 
向 于 0。 另 外 , 由 数据 处 理 不 等 式 与 信道 的 退化 性 ,I(U; Y IIU; 到 )。 于 是 由 定理 条 件 可 导 
出 第 三 项 趋向 于 0。 我 们 也 可 以 得 出 误差 概率 中 第 四 项 的 不 等 式 为 


P(Ey,,) = P((U(1),X(1,7), 1) € AY”) (15-221) 
= >> P((U(),X(,7),Y)) (15-222) 
(UX. )E A” 
= >) PCUC))P(K(,7)1U(1)) PCY, |UG)) (15-223) 
(UX YEA” . 
< > Q-n( HU) -2)9-n( A(X! U)-2) 9-2 (ACY, | U)-e) (15-224) 
(UX x EAL” 
< gn(H(U,X,Y,)+e)9-n(H(U)—6) 9 nHOX! U)-2)9-n(H(¥,1U)-e) (15-225) 
一 Fn(I(X: YILD-4s) (15-226) 


因此 , 当 Ri<I(X; Yi1U) 时 , 误差 概率 中 的 第 四 项 趋向 于 0。 于 是 , 当 n EBK, HR< 
I(U; 总 ) 与 Ri<I1(X; YIM, 我 们 可 得 出 误差 概率 满足 不 等 式 
PODS etert gak,p9-2U(Ui Y,)-3e) + gnR,p-n(I(X ¥,1U)—4e)" (15-227) 
<4e (15-228) 
上 面 的 界 说 明 我 们 译 码 信息 的 总 误差 概率 可 以 趋向 于 0。 因 此 , 存在 一 个 好 的 ((2™ 22) ,7 ) 码 
序列 C* ,其 误差 概率 趋向 于 0。 由 此 , 我 们 完成 了 退化 广播 信道 容量 区 域 的 可 达 性 的 证 明 。 
Gallager 定理 的 证 明 在 习题 15.11 中 简要 地 给 出 [225]。 口 
到 此 为 止 , 我 们 已 考虑 了 发 送 两 个 独立 信息 给 独立 接收 器 的 问题 。 但 是 , 在 某 些 情 形 下 , 我 
们 期 望 对 两 个 接收 器 发 送 公共 的 信息 。 假 如 发 送 公共 信息 的 码 率 为 Ro 则 有 下 面 显而易见 的 
定理 : 
定理 15.6.3 ”如果 码 率 对 (Ri, R) 对 于 发 送 独 立信 息 的 广播 信道 是 可 达 的 , 又 假设 RS 
min( Ri, R2), 那么 具有 一 个 公共 码 率 Ro 的 码 率 三 元 组 (Ro,R1 Ro,R2 Ro) 是 可 达 的 。 
在 退化 广播 信道 情形 下 , 还 可 以 做 得 更 好 。 由 我 们 的 编码 方案 可 知 , 较 好 的 接收 器 总 是 对 发 
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送 给 最 差 接收 器 的 所 有 信息 进行 译 码 ， 当 我 们 具有 公共 信息 时 , 并 不 需要 对 发 送 给 优秀 接收 器 的 
信息 量 进 行 缩减 。 因 此 , 我 们 有 下 面 的 定理 : 

定理 15.6.4 对 于 退化 广播 信道 ， REPAR R) TZA Ro< R, 则 码 率 三 元 组 (Ro， 
Ri, RR 一 Ro) 对 具有 公共 信息 的 信道 是 可 达 的 。 

我 们 以 下 面 的 二 元 对 称 广 播 信 道 的 例子 来 结束 本 节 。 

例 15.6.5 考虑 参数 分 别 为 pj 与 po 的 一 对 二 元 对 称 信道 , 其 组 成 如 图 15-27 所 示 的 一 个 
广播 信道 。 不 失 一 般 性 , 在 容量 计算 中 , 可 以 将 该 信道 看 成 物 0 


理 退化 信道 。 假 设 p< p< 方 。 此 时 , 将 具有 参数 p 的 二 元 r 


对 称 信道 表示 为 具有 参数 pi 的 二 元 对 称 信道 与 另 一 个 二 元 对 
称 信道 的 串联 。 设 新 信道 的 交叉 概率 为 a, 则 我 们 一 定 有 





pid -a)+(1- pie = po (15-229), 568 
或 者 1 
_ baht 
a= Tp, (15-230) 


现在 考虑 在 容量 区 域 中 定义 的 辅助 随机 变量 。 此 时 , 由 定理 
中 的 不 等 式 得 知 ,，U 的 基数 为 二 元 的 。 由 对 称 性 , 将 U 通过 1 
另 一 参数 为 8 的 二 元 对 称 信道 相连 , 如 图 15-28 所 示 。 图 15.27 “二 元 对 称 广播 信道 


图 15-28 ”物理 退化 的 二 元 对 称 广播 信道 


我 们 现在 计算 容量 区 域 中 的 码 率 。 由 对 称 性 可 知 , 使 得 码 率 最 大 化 的 U 分 布 必 然 是 10, 1| 
上 的 均匀 分 布 , 因此 


I(U;Y,)= H(Y,) - H(Y2| U) (15-231) 
= 1-H(B* po) (15-232) 

其 中 
Bx po = BA - p2)+ (1- Pp (15-233) 

同 理 ， 
I(X;Y,| U)= HCY,\ U)- H(Yi|X,U) (15-234) 
= H(Y,|U) - H(Y,|X) (15-235) 
= H(B* pı) — H( py) (15-236) 

其 中 
B* pb, = BO- p) +- Pri (15-237) 


将 这 些 点 作为 8 的 函数 , 得 到 如 图 15-29 所 示 的 容量 区 域 。 当 8= 0 时 , 传送 给 Y, 最 大 信息 量 
[ 即 R =1- H(p:)5 R1=0]。 当 B=1 人 2 时 , 传送 给 Yi 的 最 大 信息 量 , BR, =1-H(p)), H 
此 时 没有 对 Y, 传送 信息 。 这 些 8 的 值 给 出 了 码 率 区 域 的 转角 点 。 56 
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例 15.6.6( 高 斯 广播 信道 ) 高 斯 广播 信道 如 图 15-30 所 示 。 我 们 已 给 出 了 其 中 一 个 输出 为 另 

一 输出 的 退化 形式 的 情形 。 根 据 习题 15.10, 所 有 高 斯 广播 信道 都 等 价 于 如 下 形式 的 退化 信道 。 
Yi= X+Z, (15-238) 
Y= X+ 2, = Yı +Z, (15-239) 


R, 





1-H( Pa) 
Z,~N(0, N) Z;~N(0, NN) 
= ` Y, 
1-H pi) R, X Y, 
K 15-29 二 元 对 称 广播 信道 的 容量 区 域 图 15-30 ”高 斯 广播 信道 


其 中 Zi1~N(0,N1), Zs~N (0, No-Ny)o 
将 本 节 的 结论 推广 至 高 斯 情形 , 可 证 明 该 信道 的 容量 区 域 可 以 由 下 面 的 式 子 给 出 


R,< C(x] (15-240) 
R< cern.) (15-241) 
其 中 a 可 以 任意 选取 (0 二 a 二 1)。 达 到 该 容量 区 域 的 编码 方案 已 在 15.1.3 节 中 简要 给 出 。 


15.7 ”中 继 信 道 


中 继 信道 (relay channel) 仅 有 一 个 发 送 器 与 一 个 接收 器 , 但 中 间 有 若干 中 继 站 帮助 从 发 送 器 
至 接收 器 期 间 的 信息 传递 。 最 简单 的 中 继 信道 仅 有 一 re 
个 中 继 站 。 此 时 ,信道 由 4 PARRY, X, VSN 一 ~ 
及 对 应 于 每 个 (z,ziEYxti 的 定义 在 xY ER x Y 
率 密度 函数 p(y,yilzx,z1) 组 成 的 集合 。 解 释 如 下 : 图 15-31 中 继 信道 
x 为 对 信道 的 输入 ，y 为 信道 输出 ，yi 为 中 继 站 的 观 
测 数据 ，z, 为 中 继 站 选取 的 输入 符号 , 如 图 15-31 所 示 。 问 题 是 如 何 求 发 送 器 X 与 接收 器 了 间 
的 信道 容量 。 

中 继 信 道 可 以 看 成 一 个 广播 信道 (X 到 了 与 Yi) 和 一 个 多 接 人 信道 (X 与 Xi 到 了) 的 组 合 。 
对 于 物理 退化 中 继 信 道 的 特殊 情形 , 容量 是 已 知 的 。 我 们 将 首先 证 明 一 般 中 继 信 道 的 容量 的 一 
个 外 部 界 , 然后 再 给 出 退化 中 继 信 道 的 可 达 区 域 。 

定义 ”关于 中 继 信道 的 一 个 (2 下 ,n) 码 是 由 以 下 要 素 组 成 的 : 一 个 整数 集 W = |1,2,…， 
2 中 | ,一 个 编码 函数 


X:{1,2,.……,2F| >A” (15-242) 
— 7S YR AE F ARE BS Rf 
ay = fil Yu. Yoo» Yua) I1Sisn (15-243) 
以 及 一 个 译 码 函数 | 
gi" {1,2,7,2}. (15-244) 


注意 , 中 继 编码 函数 的 定义 包括 了 中 继 站 可 能 出 现 的 不 可 预料 的 情况 。 中 继 信 道 的 输入 仅 
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依赖 于 过 去 的 观测 数据 yi y12，…,y1i-1。 由 于 (YY;, Y1;) 只 依赖 于 从 过 去 直到 当前 所 传输 的 
(XXu), 在 这 种 意义 下 , 信道 是 无 记忆 的 。 于是, 对 任意 选择 的 p(w),wEW，, 选择 编码 X: 


{12,022 | >A? ARPER Sih MW XX"xX? XY" XY 上 的 联合 概率 密度 函数 为 


plw,x, XYY) = p(w) [I plz lw) pai; | ya) X Phyis Yii | Zis Li) 
i=1 


(15-245) 
如 果 发 送 的 消息 为 wE[1,2 下 ], 令 
A(w) = Prig(Y) Æ w | w 被 发 送 | (15-246) 
为 条 件 误差 概率 。 我 们 定义 编码 的 平均 误差 概率 为 
po = pk Dw) (15-247) 


该 误差 概率 假设 下 标 集 在 w E11,… ,2 下 } 上 的 均匀 分 布下 计算 。 对 于 中 继 信道 , 如果 存在 一 列 
编码 (2 下 ,n) 使 P("- 一 0, 那么 码 率 R 称 为 可 达 的 。 中 继 信 道 的 容量 C 为 可 达 码 率 集 的 上 确 界 。 
我 们 首先 给 出 中 继 信道 容量 的 上 界 。 
定理 15.7.1 对 任何 中 继 信道 ( 完 XX1,p(y,yi|zx,X1),》XJ1), FE C 有 上 界 
C< sup, mini I(X, X1; Y), I(X;Y, Y, | X)} (15-248) 


证 明 : 我 们 将 在 15.10 节 中 给 出 更 一 般 的 最 大 流 最 小 割 定理 , 该 定理 只 是 它 的 一 个 直接 推论 。 口 
该 上 界 给 出 了 一 个 漂亮 的 最 大 流 最 小 割 的 解释 。 式 (15-248) 上 界 中 的 第 一 项 给 出 了 从 发 送 
器 X 与 Xi 到 接收 器 Y 信息 传输 的 最 大 码 率 , 第 二 项 则 是 对 从 X DY SY, 的 码 率 的 定 界 。 
现在 考虑 一 能 满足 如 下 意义 的 中 继 信 道 , 它们 的 中 继 接 收 器 都 优 于 最 终 接 收 器 Y。 此 时 , 式 
(15-248) 中 的 最 大 流 最 小 割 上 界 是 可 达 的 。 
定义 ” 称 中 继 信道 (XY XX, p(y,yilzx ,zx1)， x) 是 物理 退化 的 ， 如 果 p(y,yi1|lz,X1) 可 写 
作 如 下 形式 
p(y yi l zx1) = Ply! 2,01) ply! y1, ZI) (15-249) 
FE, Y 为 中 继 信 号 Yi 的 随机 退化 。 
对 物理 退化 中 继 信 道 , 其 容量 由 以 下 的 定理 给 出 。 
定理 15.7.2 物理 退化 中 继 信道 的 容量 CC 为 
C= oP, min| I(X, X1; Y), I(X; Yı | X1)! (15-250) 


其 中 ,上 确 界 取 遍 所 有 计 XX1 上 的 联合 分 布 。 

证 明 : 

逆 定理 。 由 于 退化 中 继 信 道 满足 1(X; 了, Yi1|X1) = J(XX; Yil Xi), 所 以 该 证 明 可 由 定理 
15.7.1 与 退化 性 得 出 。 

可 达 性 。 可 达 性 的 证 明 由 以 下 基本 技巧 结合 得 出 : (1) 随 机 编码 ，(2) 编 码 清 单 ，(3)Siepian- 
Wolf 划分 ，(4) 协 作 多 接 人 信道 编码 ，(5) 释 加 编码 ，(6) 在 中 继 发 送 器 和 发 送 器 处 进行 分 组 马尔 可 
夫 编 码 。 我 们 仅 给 出 证 明 的 要 点 。 

可 达 性 的 要 点 。 我 们 考虑 B 组 传输 , 每 组 ”个 字符 。 于 是 , 经 过 nB 次 传输 , 在 信道 上 可 以 
发 送 B 一 1 个 下 标 wE 11,…,2 中 } ,i=1,2,…,B 一 1。( 注 意 到 对 固定 的 n, Brom, BR 
R(B-1)/Ba RHI R.) 

定义 码 字 的 双重 下 标 集 : 

C= {xw! s),x(s)}iw E {1,721.5 € 1 2%} xe Xx EAP (15-251) 
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间 时 也 需要 MW = |1,2,… ,2 中 | 的 一 个 划分 
S = [S], S2, S275} (15-252) 
其 中 共有 2 $7, AWE SS, = 9,147, 以 及 U S;=W。 这 种 划分 使 我 们 能 够 以 Slepian 和 
Wolf[ 502] 方 式 将 边 信 息 也 发 送 给 接收 器 。 
随机 码 的 生成 。 给 定 p(x1)p(x1z1)。 
首先 随机 生成 XY? 中 的 2%, 个 服从 分 布 p(xi) = 下 2(zu) 且 长 度 为 n 的 i.i.d. 序 列 。 它 们 的 


下 标定 为 x1(s),sE€ 11,2552] EA my (5) FER ESIA pxl (8)) = Th pCa; le(s) 
条 件 独立 的 n 长 序列 x(w] s),wE {1,2 |» REBEL = Ix(wls),x(s)}o 11,2, 
2 中 | 的 随机 划分 5S = 1 Si, S ,Sa 定义 如 下 。 对 于 每 个 整数 WE |122), 根据 下 标 s= 
1,2,… ,2 上 的 均匀 分 布 独立 地 分 配 到 各 单元 S, 中 去 。 

编码 。 设 wi, |1,2,…,2 中 | 是 第 i 组 传输 的 新 下 标 ，s; 为 对 应 于 w;-1 的 划分 单元 的 下 标 ， 


即 wi_1€ S, 。 编 码 器 发 送 x(wi|s)。 中 继 站 前 一 个 发 送 的 下 标 wi-; 有 估计 值 多 ;-1( 这 将 会 在 解 


码 部 分 给 出 详细 论述 )。 假 设 wE S; ,中 继 编码 器 在 第 i 组 传输 中 发 送 x1(5;)。 
译 码 。 在 第 i—1 组 传输 结束 的 时 候 ， 假定 接收 器 知道 (wi ,wp,… ,tw;_2) 与 (581,52,… S;-1)> 并 且 
中 继 站 也 获得 (zzz，… ww-1)， 从 而 知道 (ssz，…5)。 在 第 i 组 传输 结束 时 ， 其 译 码 流程 如 下 : 


1. 根据 已 知 的 s 和 接收 到 的 yC), 中 继 接 收 器 估计 出 所 传递 的 消息 w= w 当 且 仅 当 存在 
惟一 的 w, 使 得 (x(w|s;) ,xi(s;) ,yi(7)) 为 联合 e 典型 序列 。 如 果 
R< I(X;Y, | X;) (15-253) 


且 ”充分 大 时 ,由 定理 15.2.3, 可 证 明 多 ;= w 具有 任意 小 的 误差 概率 。 

2. 接收 器 宣布 3 =* 被 发 送 了 当 且 仅 当 存在 且 仅 存 在 一 个 >, 使 (x1(s),y(i)) 为 联合 e 典型 
的 。 如 果 

Ry < I(X;Y) (15-254) 

Hn 充分 大 , 那么 由 定理 15.2.1 我 们 知道 ，s; 能 够 以 任意 小 的 误差 概率 被 译 出 来 。 

3. 假设 s 被 接收 器 正确 地 译 码 , 那么 接收 器 会 将 第 i 一 1 组 传输 中 所 有 可 能 与 y(i -1) 构 成 
联合 典型 的 序列 构成 一 个 下 标清 单 L(y(i - 1))。 若 有 惟一 的 w 包含 于 S, 门 E(y(i -1)), 则 接收 
器 宣布 w= w 为 第 i -上 组 传输 中 发 送 的 下 标 。 若 x 充分 大 , H 


R< I(X;YIX,)+ Ro (15-255) 

则 w= wi_1 的 误差 概率 任意 小 。 联 合式 (15-254) 与 式 (15-255) 的 约束 , 消去 Ro, 余下 
R < I(X;Y | Xi) + I(X;Y) = I(X, X; Y) (15-256) 
若 想 了 解 关于 误差 概率 的 详尽 分 析 , 读者 可 参看 Cover 与 EI Gamal[127]。 口 


可 以 证 明 , 定理 15.7.2 关于 下 列 类 型 的 中 继 信道 也 成 立 : 
1. 反 退 化 中 继 信 道 , 即 

ply yi l 2521) = ply | 2,21) p(n | ZI1) (15-257) 
2. 带 反 馈 的 中 继 信道 。 
3. 确定 性 中 继 信 道 
yı = flat), y = 号 ( 工 Ti) (15-258) 


15.8 具有 边 信息 的 信 源 编码 
现在 考虑 一 种 特殊 的 分 布 式 信 源 编码 问题 , 即 两 个 随机 变量 X 与 了 分开 编码 , 但 仅 需要 将 
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X 恢 复 。 如 果 容 许 用 R, 比特 描述 Y, 那么 需要 用 来 描述 X 的 码 率 Ri BED? 如 果 R,> 
HCY), WU Y 可 完美 地 描述 , 再 由 Slepian-wolf 编码 的 结论 ，R1 = HXI Y) EREB X T. 
从 另 一 极端 情形 来 看 , 若 R,=0, 我 们 必须 在 没有 任何 别 的 帮助 下 来 描述 X, 因此, 至 少 需要 用 
Ri= 互 (XI) 比 特 来 才能 描述 X。 一 般 地 , 用 R= I(Y; 了 了) 描述 Y 的 一 个 逼近 立 , 那么 在 已 知 边 
信息 了 的 条 件 下 , 用 H(XIY) 比 特 可 以 描述 X。 下 边 的 定理 与 这 个 直观 结论 相 一 致 。 

定理 15.8.1 R(X, Y)~plz,y). WR YAGER, 编码 ，X UBER, 编码 ， 那么 能 以 
任意 小 的 误差 概率 将 久 恢 复 当 且 仅 当 存 在 某 个 联合 概率 密度 函数 p(xz,y)p(u|y), 使 得 

R, > H(X | U) (15-259) 
R, > I(Y;U) (15-260) 
其 中 |M| 委 | 了 1+2。 

我 们 将 定理 证 明 分 成 两 部 分 。 首 先 证 明定 理 的 首部 分 , 即 证 明 对 任何 具有 小 误差 概率 的 编 
码 方案 , 均 可 以 找到 满足 定理 所 述 的 服从 某 个 联合 概率 密度 函数 的 随机 变量 U。 

证 明 ( 逆 定 理 ): 考 虑 如 图 15-32 所 示 的 任意 信 源 编码 。 信 源 编码 有 下 列 要 素 组 成 : 两 个 映射 
fX) gY), HPA Se, 的 码 率 分 别 小 于 Ri 与 
及 ， 以 及 一 个 译 码 映射 h,, 使 得 

PIP = Prih,(f,(X"), 2, ¥")) EX) <e 
(15-261) 
定义 新 的 随机 变量 S= F(X) T= g, (Y). ot HH 图 15-32 具有 边 信息 的 编码 
于 可 从 S 与 工 中 将 XY 以 小 误差 概率 恢复 , 则 由 费 诺 不 





等 式 , 我 们 有 

HXIS,T)< nen (15-262) 

于 是 
nR:=H(T) (15-263) 
SIY”; T) (15-264) 
= DYST Yie, Y;a) (15-265) 
= 三 >) TYiT， Yi, Yi) (15-266) 

其 中 


(a) 由 g, 的 值 域 为 1L,2,…,2 史 :| 得 到 ， 
(b) 由 互信 息 的 性 质 得 到 ， 
(c) 由 链 式 法 则 以 及 Y; 独立 于 六 ，,… ,Yi;-1, 从 而 ICY; Yi1,…,Y-1)=0 得 到 ， 
(d) EX U =(T, Yi,…,Y;_1), 可 以 推出 。 
对 于 Ri, 我 们 也 有 下 面 的 系列 不 等 式 ， 
nRiSH(S) (15-268) 


SH(S1T) (15-269) 
= H(S| T)+ H(X" | S,T)- H(X 1 S,T) (15-270) 





un 
~ 
Cn 
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(ce) 

HX,S | T) - ne, (15-271) 

(d) 

=H(X" | T)- ne, (15-272) 

(e) <2 

-= >) H(X; | T, Xis, Xi) — ne, (15-273) 
ist 

() < . . 

>>) A(X, | T,X 1, Yo) ~ ne, (15-274) 
i=l 

(g) <2 . 

= >) H(X, | T, Y!) - ne, (15-275) 
i=l 

(h) q% 

= >) H(X; | U;) — ne, (15-276) 
i=l 


其 中 

(a) 由 S 的 值 域 为 {1,2,… ,2 中 !| 得 到 ， 

(b) 由 于 加 入 条 件 使 得 箭 变 小 的 事实 得 到 ， 

(c) 由 费 诺 不 等 式 得 到 ， 

(d 由 链 式 法 则 以 及 SAX 的 函数 的 事实 得 到 ， 

(e) HAKEREM, 

(f b FAREREI E E, 

(g) 由 于 (微妙 的 ) 事 实 :因为 X 并 不 含有 XX-! 不 存在 于 Y OMT PAAR, 从 而 Xi 一 
(T, 天 -1 一 和 -1 构成 一 个 马尔 可 夫 链 ， 

(h) 由 UNS MBE. 

另外 , 由 于 X; 中 含有 关于 Ui 的 信息 并 不 比 Y; 含有 的 多 , 则 X; 一 了 ,一 U; 构成 一 个 马尔 可 夫 
链 。 因 此 , 我 们 有 下 面 的 不 等 式 : 


Ri > 1 KXU) (15-277) 
R>+ Ys U) (15-278) 
现在 引进 一 个 分 时 操作 随机 变量 Q , 使 得 我 们 可 将 上 述 不 等 式 改写 为 
R, > +) HXIU,Q = i) = H(Xq|Ue,Q) (15-279) 
R> > DY YUQ = i) = I Yo: UalQ) (15-280) 
由 于 Q 独立 于 Yo( 即 Y 的 分 布 不 依赖 于 i), 我 们 有 
I(Yo;Ua! Q) = I(Yo; Uo, Q) -I(Yo;Q) = I( Yo; Ua,Q) (15-281) 


其 中 Xo 与 Yo 的 联合 分 布 为 定理 中 已 知 的 p(z,y)。 定 义 U=(Ug, Q), X= Xo 以 及 Y= Yo, 
我 们 便 证 明了 对 于 低 误差 概率 的 任何 编码 方法 , 存在 随机 变量 U 使 得 


R, > H(X | U) (15-282) 
R, > I(Y;U) (15-283) 
至 此 , 完成 逆 定 理 的 证 明 。 口 


”在 我 们 继续 给 出 该 码 率 对 的 可 达 性 的 证 明 前 ， 需要 一 个 关于 强 典 型 性 和 马尔 可 夫 链 的 新 引 理 。 
回忆 关于 三 个 随机 变量 X, Y5 Z 的 强 典 型 性 的 定义 。 三 个 序列 oy So" 称 为 e 强 典型 的 , 如 果 





网 络 信息 论 329 





1 noon nj E 
nN (a,b,c | x", y",2") pla,b,c)| < FADIA (15-284) 


eA dh, KEREC, y Iy, xz") 都 是 联合 强 典 型 的 。 然 而 , 反之 不 然 。 即 , WRC, y) E 
A(X, YAY ,2 )E A MY, Z),— 般 不 存在 (x",y' ,zx")E A2:"(X,Y,Z)。 但 是 , 如 果 
X>Y>Z 构成 一 个 马尔 可 夫 链 , 则 该 结论 是 成 立 的 。 我 们 将 此 氢 述 作为 一 个 引 理 ,但 不 证 明 ， 
具体 细节 可 参看 [53,149]。 

引 理 15.8.1 设 (X,Y,Z) 构 成 马尔 可 夫 链 XYZ, P plr,y,z)= play) plzly)o 


如 果 给 定 条 件 (y VEAL CY,Z), A X~ Ü p( xl 9), BAS n RPAH, Pri, 9", 2") 
EAZ'(X,Y,Z)|>1-€. 

注释 ”如果 X"~ I p(aily;, 2), WARE HT AER. XYZ 的 马尔 可 夫 性 
$228 T PRE X" ~ Ü plal y) EE X" ~ TT pail yz) BRIE 

我 们 现在 给 出 定理 15.8.1 中 可 达 性 证 明 的 概述 。 

证 明 (定理 15.8.1 中 的 可 达 性 ): 固定 pluly) HE plu)= 2p(y)p(u1y)。 


DEHER EROAREN n 的 独立 码 字 Uw), wE 11,2,…,2 呈 | 服从 分 布 人 p(w)。 
对 每 个 X", 依 和 1,2,… ,2 忆 !| 上 的 均匀 分 布 独立 随机 产生 下 标 bp， 从 而 将 所 有 X 序列 装 人 28S 
盒子 中 ,用 B(i) 表 示 装 人 盒子 i 的 所 有 XX 序列 构成 的 集合 。 

编码 。 发 送 器 X 发送 Xr" 落 和 人 的 盒子 下 标 i。 

发 送 器 了 找 出 下 标 * 使 得 (Y,U(s))E A2 WW(Y,U)。 如 果 这 样 的 ;不止 一 个 , 则 发 送 最 
小 的 。 如 果 码 秒 中 不 存在 这 样 的 UC), 那么 发 送 ;=1。 

译 码 。 接 收 器 找寻 惟一 的 YE Bi) R(X", U (s) EAL (X,U)。 若 不 存在 这 样 的 
X, 或 不 止 一 个 , 则 宣布 出 错 。 

误差 概率 分 析 。 各 种 误差 来 源 如 下 : 

1. 由 信 源 产生 的 序列 对 (X" , Y ) 非 典型 。 当 n 很 大 时 ,出现 这 种 情形 的 概率 很 小 。 因 此 ， 
不 失 一 般 性 , 我 们 可 以 将 事件 “ 信 源 产生 一 个 特定 典型 序列 (zx”,y*)€ A:'"” 作 为 条 件 。 

2. 序列 Y 是 典型 的 , 然而 码 簿 中 却 不 存在 U (5 ) 与 其 为 联合 典型 的 。 由 10.6 节 的 讨论 知 ， 
这 种 情形 的 概率 是 很 小 的 。 当 时 , 我 们 证 明了 如 果 有 足够 多 的 码 字 , H, 如 果 

R, > I(Y;U) (15-285) 
那么 我 们 非常 有 可 能 找到 一 个 码 字 , 与 给 定 的 信 源 序列 是 联合 强 典 型 的 。 

3. 码 字 LUP(s) 与 y 是 联合 典型 的 , 但 不 与 x" 联合 典型 。 由 引 理 15.8.1, 由 于 X 一 Y 一 DJ 
构成 一 个 马尔 可 夫 链 , 这 种 情形 的 概率 也 很 小 。 

4. 如 果 存 在 另 一 典型 的 序列 XE BG) BS LP(s) 是 联合 典型 的 , 也 会 得 到 误差 。 任 何其 他 序 
BX" 与 [Pr(s) 是 联合 典型 的 概率 小 于 2- "20-3) ,因此 , 这 种 情形 下 的 误差 概率 有 上 界 

| B(i) nN AŽ™®(X) | gn LOG U)-3e) < QMHOO +e) Ry 2 n IX U)-3e) (15-286) 
4 Ri1>H(XI1U) 时 , 该 上 界 趋 向 于 0. 

因此 , 实际 的 信 源 序列 X 与 Un(s) 是 联合 典型 的 ,而 同一 盒子 中 再 没有 别 的 典型 序列 能 够 
与 Ur(s) 联 合 典型 , 这 是 极 有 可 能 的 。 我 们 可 适当 地 选取 n 与 使 得 误差 概率 任意 小 。 这 就 完成 
了 可 达 性 的 证 明 。 口 


15.9 具有 边 信息 的 率 失真 
我 们 已 经 知道 , 在 容许 失真 D 的 情况 下 , 为 了 描述 义 , 只 需要 R(D) 比 特 就 足够 了 。 现 在 的 
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问题 是 , 如 果 已 知 边 信息 Y 时 , 需要 多 少 比 特 ? 
首先 给 出 一 些 定义 。 设 (X,Y,) 为 i.i.d. 一 p(xr,y), 按 如 图 15-33 所 示 编 码 。 


定义 ”具有 边 信 息 (side information) t $ k A A% Ry R ~ _ 
(D) 定 义 为 当 译 码 器 获得 边 信息 Y 时 ,为 使 失真 率 不 。“ An Bee j 
超过 D 所 需要 的 最 小 码 率 。 精 确 地 讲 ，Ry( 孔 ) 为 满足 pa RED 
如 下 条 件 的 所 有 码 率 的 下 确 界 ， 即 如 果 存在 映射 :tw Y 
一 {1,2,… ,2 中 | 和 gV” x 和 ,2,… 2E] 满足 图 15-33 具有 边 信息 的 率 失真 

lim supEd ( X” , g, Y” ,in(X"))) SD. . (15-287) 


BR, 由 于 边 信息 至 少 会 有 些 帮 助 , 故我 们 有 Ry(D) 委 民 (D)。 对 于 零 失真 情形 ,这 就 是 
Slepian-Wolf 问题 。 此 时 , 需要 HXI Y) 比 特 。 因 此 ，Rr(0) = 五 (XIY)。 我 们 希望 确定 出 整个 
曲线 Ry(D), 关于 这 点 的 结论 可 表述 为 下 面 的 定理 。 

定理 15.9.1( 具 有 边 信 息 的 率 失 真 (Wyner 和 Ziv)) ”如 果 ( 义 ,Y) 为 ii.d. ~ pla,y) E 


d(x", 2) = LD d(a.d,) Ete, MARA DERM RRA BMH 
Ry(D) = minmin(I(X; W) ~ ICY; W)) (15-288) 


pw 
其 中 最 小 值 取 自 所 有 函数 f: YSW ARMA RARER DH p(wlz), WIV +1, È 
们 满足 
STS) Sola.) p(w | x)d(z,fly,w)) <D (15-289) 


定理 中 的 函数 了 对 应 于 译 码 映射 , 它 将 X 符号 的 编码 形式 与 边 信息 Y 映射 到 输出 字母 表 。 其 
中 的 最 小 值 取 自满 足 关于 联合 分 布 的 期 望 失 真 不 超过 DD 的 W 上 的 所 有 条 件 分 布 以 及 所 有 函数 fo 

在 考虑 式 (15-288) 中 定义 的 函数 Ry(DD) 的 一 些 性 质 后 , 我 们 将 首先 证 明定 义 道 定理 部 分 。 

引 理 15.9.1 式 (15-288) 中 定义 的 具有 边 信息 的 率 失 真 函数 Ry(D)AD HERS EHR, 

证 明 : Ry(D) 的 单调 性 直接 由 随后 的 事实 推出 : Ry(DD) 的 定义 中 取 最 小 值 的 区 域 随 着 DD 的 增 大 
而 增 大 。 与 不 存在 边 信息 时 的 率 失真 一 样 , 可 以 预期 Ry(D) 是 是 的。 但 是 , 由 于 在 式 (15-288) 中 Ry 
(D) 的 定义 有 两 次 取 最 小 值 而 不 是 一 次 , 这 使 得 凸 性 的 证 明 变 得 更 加 复杂 。 我 们 仅 给 出 证 明 的 要 点 。 

设 Di 与 D; 为 失真 的 两 个 取 值 , Hit Wi, fi 以 及 Wai fh SHA Ry(D,)5 Ry(D) WE 
义 中 达到 最 小 值 时 对 应 的 随机 变量 与 函数 。 设 Q 为 独立 于 X,Y, Wi 与 W, 的 随机 变量 , 其 以 概 
率 ) 取 值 1, 以 概率 1- ，) 取 值 2。 

定义 W=(Q, Wa), 并 令 f(W, Y)= fol Wo, Y). RBH, AW, Y) =A Wi, Y) 
A, 而 LOW, Y) = fo Wo, YEW I-A, 于 是 失真 变 为 


D= Ed(X,X) (15-290) 
= AEd(X,f,(W1, Y)) + (1— A) Ed(X, fo(W2, Y)) (15-291) 
= aD, + (1-A)D, | (15-292) 
而 式 (15-288) 变 为 

1(W;X) ~ I(W;Y) = H(X)- H(X | W)- HCY) + HCY 1 W) (15-293) 
= H(X) - H(X | Wo,Q) - HCY) + HCY | Wo, Q) (15-294) 

= H(X) — AH(X | W,)- (1— a) H(X | W2) 
- H(Y) + AH(Y | W,)+ (1 -A)H(Y | W3) (15-295) 


= AC(ICW,, X) — I(Wi; Y)) + 1 - AY W2, X) ~ I(W,; Y)) 
(15-296) 
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从 而 
Ry(D)= min (I(U;X) ~ I(U;Y)) (15-297) 
< I(W;X)- I(W;Y) (15-298) 
= ACICW,,X) — I(W1;Y))+ (1 -à)(I(W2,X) — I(W,; Y)) 
= ARy(D;) + (1 - A)Ry(D,) (15-299) 
这 就 证 明了 Ry(D) 的 凸 性 。 口 


我 们 现在 来 证 明 条 件 率 失真 定理 的 逆 定 理 。 

证 明 ( 定 理 15.9.1 的 逆 定 理 ); 考虑 具有 边 信息 的 任意 率 失 真 码 。 令 编码 函数 为 户 : 寺 "一 
和 ,2,…,2 芭 | , 译 码 函 数 为 gy 2" 11,2,…,2 下 一。 令 gs Vx | 和 1,2,…,2 下 | 一 完 为 译 码 函数 产 
ERE i 个 字符 , m T= f, X28 X 的 编码 。 我 们 需要 证 明 , 如 果 FE4(X',g,(Y', fa (XOD, 
M R 宇 Ry(D)。 我 们 有 下 面 的 系列 不 等 式 : 


nR = H(T) (15-300) 
>H(T | Y”) (15-301) 
> 1(X";T 1) (15-302) 
= KET Y”, x71) (15-303) 
= HX, | Y”, X) — H(X; | T, Y", X!) (15-304) 
2 SHO 1 Y) = HOX; | T, Y, Yy Yia X) (15-305) 
SS HOG Y) -HOG | THY, Yi, Yh) (15-306) 
= DHX, | Y;) - H(X; | W;, Y;) (15-307) 
EDW, | Y;) (15-308) 
= PD HOW y,) - HCW, | Xi, Y;) (15-309) 
= ACW, | ¥;) — HCW; | X;) (15-310) 
= > HW.) - H(W, | X;) ~ H(W;) + HCW; | Y;) (15-311) 
= > WX) — I(W;; Y;) (15-312) 
S 3) Ry( Ed (Xi eal Wi, Y:))) (15-313) 
= n LS Rv(Ed(X, g'a Wir YD) (15-314) 


Bony (7-3) Ed(Xi, g uW: Y))) (15-315) 





Ww 
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S nRy(D) (15-316) 

其 中 

(a) FA T ABR 11,2,---, 2° | RS, 

(b) FA FRA FRE ED BY) SB SE 78 By 

(c) 由 互信 息 的 链 式 法 则 得 到 ， 

(d) 有 以 下 事实 推出 : 给 定 Y 时 ，X 独立 于 Y 和 XX 的 过 去 与 未 来 ， 

(e) 由 于 加 入 条 件 焙 减 小 的 事实 得 到 , 

(f) 直接 由 定义 WET, Y, Yn AE, 

(g) 由 互信 息 的 定义 得 到 ， 

(h) Y; 仅 依 赖 于 X;, HAF SY 的 过 去 与 将 来 , Alk, WX Y; 构成 一 个 马尔 
RE, 

G) AF X= gul T, Y") 42 W;, Y;), TÆ CW X;)-—10W 3 ¥) = min I(W;X) 


W:Ed(X,%<D,) 
- I(W; Y) = Ry(Di), 从 而 可 由 (信息 ) 条 件 率 失真 函数 的 定义 得 到 ， 

(j) 由 Jensen 不 等 式 与 条 件 率 失真 函数 的 凸 性 ( 引 理 15.9.1) 得 到 ， 

(k) 由 D = 下 [二 六 4(X, 蕊 ) | 的 定义 得 到 。 口 

容易 看 出 该 逆 定 理 与 无 边 信 息 时 率 失真 的 逆 定 理 (10.4 节 ) 的 相似 性 。 可 达 性 的 证 明 也 与 利 
用 强 典 型 性 证 明 率 失真 定理 相似 。 区 别 在 于 , 我 们 将 这 些 码 字 分 人 多 个 盒子 中 , 发 送 盒子 的 下 
标 , 而 不 是 发 送 与 信 源 联合 典型 的 码 字 的 下 标 。 若 每 个 盒子 中 码 字 的 数量 充分 小 , 那么 接收 器 可 
以 利用 边 信息 将 盒子 中 特定 的 码 字 分 离 出 来 。 因 此 , 我 们 又 将 随机 装 盒子 与 率 失真 编码 相 结合 
找 出 联合 典型 再 生 码 字 。 我 们 将 给 出 证 明 的 要 点 如 下 。 

证 明 ( 定 理 15.9.1 中 的 可 达 性 ): 固定 p(w|x) 与 函数 w, y), 计算 

p(w) = >) p(x) p(w! x) 


码 簿 的 生成 。 令 Ri= 1(X;W) te, 生成 2 中 个 ii.d. BFW) ~ pl), 它们 的 下 标 s 
E{1,2, 7,2} $ R,=I(X;W) 一 I(Y;W)+5e。 随 机 地 将 下 标 sE 11,2,…，, 2" 依 盒子 上 
的 均匀 分 布 分 配 到 2" 个 盒子 中 的 其 中 一 个 。 记 B(i) 为 第 i 个 盒子 中 的 下 标 集合 , 那么 每 个 盒 
PPRAHA 22: 个 下 标 。 

编码 。 对 给 定 的 信 源 序列 X" , 编码 器 搜索 满足 (X”, Ws) CAL OE W(s), GRE 
在 这 样 的 码 字 W, 编码 器 规定 ;= 1。 若 存在 不 止 一 个 这 样 的 ;, 编码 器 采用 最 小 的 *。 编 码 器 发 
Ks 所 在 的 盒子 的 下 标 i。 

O 译 码 。 译 码 器 找 出 满足 SE B(i) 与 (W'(s), YEA: HBF 本 (*)。 若 它 找到 惟一 的 *, 则 计 
算 人 各 ,其 中 名 =f(W,Y)。 若 没有 找到 这 样 的 s, 或 者 找到 不 止 一 个 ;, 则 规定 X"= 2", 其 中 2 为 
An 中 的 一 个 任意 序列 , 并 不 需要 在 乎 使 用 了 哪个 默认 序列 , 我 们 将 证 明 这 类 事件 的 概率 很 小 。 

误差 概率 的 分 析 。 与 前 面 类 似 , 存在 多 种 产生 误差 的 事件 : 

1. 序列 对 (X", YDE AS, BIKEN, n 充分 大 时 , 这 类 事件 的 概率 是 很 小 的 。 

2. 序列 X” 是 典型 的 , 但 并 不 存在 满足 (X", Ws EC AZ 的 s。 类 似 率 失真 定理 中 的 证 
明 , 当 

R, > I(W;X) (15-317) 
时 ,这 类 事件 的 概率 很 小 。 
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3. 序列 对 (X",W"(s))€E A2 1" ,但 是 (W"(s),Y) AL, BBFS Y 序列 不 是 联合 典 
型 的 。 由 马尔 可 夫 引 理 ( 引 理 15.8.1) 得 知 ， 当 n 充分 大 时 , 这 类 事件 的 概率 很 小 。 

4. 在 相同 的 盒子 中 , 存在 男 一 ，，, CW's), YEA ™, AF RERLER W 与 好 
是 联合 典型 的 概率 ~2-"(*W), 同一 盒子 中 还 有 W 与 Y 构成 典型 的 概率 不 超过 码 字数 


量 乘 以 联合 典型 的 概率 ， 即 


Pr( ds’ € Bli): (W° (s), JE AZ) C2"R RI "UW Ye) (15-318) 


由 于 R,- R,<I(Y;W)-3e, 其 趋向 于 0。 


5. 若 下 标 s 译 码 正确 , WX ws ))EC AZ, HE12, WRX, Y)EA™, A 
此 , 由 马尔 可 夫 引 理 , A(X, Y, W)CA O FE, ARRAS DH SR p(x, 
y)p(w|1z) 接 近 。 因 此 ,(X',X") 必 有 一 个 接近 于 达到 失真 DD 的 分 布 的 联合 分 布 。 

因此 , 译 码 器 将 以 很 高 的 概率 生成 加, 使 得 X” 5X" 间 的 失真 接近 于 nD。 这 就 完成 了 定理 


的 证 明 。 


口 


对 于 详尽 的 证 明 过 程 , 读者 可 参看 Ziv[574]。 经 过 对 压缩 分 布 式 数据 的 各 种 情形 的 探讨 ， 人 

们 可 能 以 为 该 问题 已 经 得 到 了 完全 的 解决 。 但 遗憾 的 是 , 事实 并 非 如 此 。 对 所 有 以 上 的 问题 的 
一 个 直接 的 一 般 化 问题 是 如 图 15-34 所 示 的 相关 信 源 的 率 失真 问题 。 这 本 质 上 是 X 与 了 中 都 存 
在 失真 时 的 Slepian-Wolf 问题 。 容 易 看 出 ， 上 面 考虑 的 三 个 分 布 式 信 源 编码 问题 都 是 该 问题 的 特 


殊 情 形 。 然 而 , 与 前 面 不 同 , 该 问题 还 没有 得 到 完全 的 解决 , 一 般 情形 的 率 失真 区 域 还 不 知道 。 [58 


N 





图 15-34 ”两 个 相关 信 源 的 率 失 真 


15.10 一 般 多 终端 网 络 


作为 本 章 的 总 结 , 我 们 考虑 一 般 情形 ,， 即 具有 多 个 发 送 器 与 多 个 接收 器 的 多 终端 网 络 , 并 导 


出 这 样 的 网 络 系统 中 信息 传送 的 可 达 码 率 的 一 些 界限 。 如 
图 15-35 所 示 的 一 般 多 终端 网 络 。 在 本 节 中 ， 上 标 表 示 节 
点 的 标号 , 下 标 表示 时 间 标 号 。 假 设 有 m 个 节点 , 节点 i 
有 对 应 的 传送 变量 XG 与 接收 变量 YO, HR i 以 码 率 
ROMS | 发 送信 息 。 再 假设 所 有 由 节点 i 传送 到 节点 j 
的 消息 WORE, 且 在 各 自 的 取 值 空间 11,2,…， 
QR) | FARM ISS Ao 
信道 可 由 信道 转移 函数 p(y, e, vO Lae 

ca”) Bk, 它 是 在 已 知 输入 的 条 件 下 ， 输出 结果 的 条 件 概 
率 密 度 函 数 。 该 概率 转移 函数 刻画 网 络 中 噪声 与 干扰 的 影 
响 。 假 设 信道 是 无 记忆 的 ， 即 任何 瞬时 时 刻 的 输出 仅 依 赖 
当时 的 输入 , 而 与 以 往 的 输入 条 件 独立 。 


S c 
. S 


° ° e 58 


心 


e eX”, ye) 
rl) pod 
CKO, YD) a 


图 15-35 一般 多 终端 网 络 
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对 应 于 每 个 传送 与 接收 器 节点 对 是 消息 WOE 11,2,…,2 吧 "|}。 在 节点 i 处 的 输入 字符 
XX 中 不 仅 依赖 于 消息 WO! jEll mt, 也 依赖 于 节点 过 去 接收 到 的 字符 Y®. Bit, 分 组 
长 度 为 ”的 编码 方案 由 每 个 节点 都 对 应 着 一 列 的 编码 和 译 码 函数 组 成 ， 
。 编码 器 。X 人 (WD Wh) WOM YO VY) YO) =1…,z。 编 码 器 将 消息 
与 过 去 接收 到 的 字符 映射 为 时 刻 & 被 传输 的 字符 X8) 。 

© Fag, WHY, YO, WO, W), j=1,2, 0, mo 节点 i 处 的 译 码 器 j 将 
根据 每 组 传输 中 接收 到 的 字符 与 自身 的 传输 信息 , 估计 出 从 节点 j(7 =1,2,--,m ) 传 送 给 
它 的 消息 。 

与 每 对 节点 相伴 是 一 个 码 率 与 一 个 相应 的 误差 概率 , 这 种 消息 是 不 能 被 正确 译 码 的 。 

PC 人 = Pl WP (YS, WOU... wor) 天 wii) (15-319) 


其 中 Pl” 的 定义 基于 假设 所 有 的 消息 相互 独立 , 且 服 从 各 自 取 值 空间 上 的 均匀 分 布 。 

如 果 对 所 有 的 i,j€ 11,2,…,m| ,存在 分 组 长 度 为 ”的 编码 器 与 译 码 器 , 使 得 当 n 一 co 时， 
HA Pl” 一 0, 则 称 码 率 集 |R' 引 | 是 可 达 的 。 利 用 上 述 定义 来 推导 出 任意 多 终端 网 络 中 的 信息 
流 的 上 界 。 将 所 有 节点 集 分 成 集合 S 与 其 补 集 S。 现 在 来 估计 从 S 中 节点 到 S 中 节点 的 信息 流 
码 率 。 见 参考 文献 [5141。 

定理 15.10.1 如 果 信息 码 率 集 {R 引 | 是 可 达 的 , 则 存在 一 个 联合 概率 分 布 plt, t,o, 
Zz'")), 使 得 对 任意 的 SC {1,2,…,m|, HA 


> RO < I(x), Ys) | X's )) (15-320) 
i€ES,jES’ 
因此 ， 穿 过 草 集 的 信息 流 的 总 码 率 由 条 件 互信 息 所 界定 。 
证 明 : 与 多 接 人 信道 的 道 定理 的 证 明 相 同 。 设 = |(i,j):i€S,jE€S°1 是 从 S 至 S HE 
接 构 成 的 集合 , 记 “为 网 络 中 所 有 其 他 的 连接 。 则 


C4) 


n SS RO (15-321) 
i€S,jES' 

也 5 H( Ww) (15-322) 
1€S,jES° 

© pw?) (15-323) 

2 aw | wt?) (15-324) 

= (W; YS, YS? | Wh?) (15-325) 
+ HCW | yS, YSO, WT?) (15-326) 

S1(W YS), YS? | WTO) + ne, (15-327) 

2 DWD; YS? | Yf, e, YED, WTP) + ne, (15-328) 
k=1 


O $ 


一 >) HC ys? | YSO, e, YD, WT?) 

k=] 

—H(YS1 Y{S),.., ¥SP,WT, WD) + ne, (15-329) 
(g) 


<>) HH ye’ | YO e, YD, WT), XS?) 
k=1 


一 H(y{s? | Ys) YD, WT, WD , XL, XI )) + ne, (15-330) 
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ch) 2 


<2 HCY? | X$S) -HOCOYG | XS, x) + ne, (15-331) 
= DIX; YS? | XS) + ne, (15-332) 
k=1 

© Lx < < 

=n 2 XP; YE OXY ?,Q =k) + ne, (15-333) 
Za (XP YS? | xe ),Q) + ne, (15-334) 
= n(H(Y$ 1 X$?,Q) - HCY$? 1 XY, xXY,Q)) + ne, (15-335) 
(k) c 

<n(H(Y$? | XFO) ~- HCYE ) | XY, XY, Q)) + ne, (15-336) 
2 n(H(Y$ | xX) - HCY? 1 xX, xY)) + ne, (15-337) 
= n (XP; YS) | XY) + ne, (15-338) 


其 中 


(a) 由 于 消息 W 人 服从 各 自 的 取 值 空间 {1, 2, …,， 2 中 ”| 上 的 均匀 分 布 ， 

(b) 由 定义 WO =(wH. i€ES,jES “|, 从 而 消息 相互 独立 ， 

(c) 由 于 关于 工 和 工 * 的 消息 是 相互 独立 的 ， 

(d) 因为 消息 WOR Y(S) 与 WO RB, 于 是 由 费 诺 不 等 式 可 得 ， 

(e) 由 互信 息 的 链 式 法 则 得 到 ， 

(f) 由 互信 息 的 定义 得 到 ， 

(g) 由 于 XS 为 过 去 接收 到 的 字符 YS ) 与 消息 W(T) 的 函数 ,以 及 加 入 条 件 使 得 第 二 项 减 小 ， 
(h) 由 于 YO 仅 依赖 于 当前 的 输入 字符 Xfs) x), 

O 只 要 引入 一 个 服从 {1, 2, …，n1 上 均匀 分 布 的 分 时 随机 变量 Q 就 可 得 到 ， 
O 由 互信 息 的 定义 得 到 ， 

(k) AFMA RHEN, 


(1) 由 YSO RATAA XY? 且 条 件 独 立 于 Q 得 到 。 


因此 , 存在 满足 定理 中 不 等 式 的 某 个 联合 分 布 的 随机 变量 XO R x, 
上 述 定 理 有 一 个 简单 的 最 大 流 最 小 割 解释 。 考 虑 网 络 中 任何 一 个 分 界线 的 一 侧 与 另 一 侧 ， F 
该 分 界线 的 信息 流 的 码 率 不 超过 在 给 定 另 一 侧 的 输入 条 件 下 ,一 侧 的 输入 与 另 一 侧 的 输出 之 
间 的 条 件 互信 息 。 
如 果 定 理 中 不 等 式 的 等 号 能 够 成 立 , 那么 网 络 中 的 信息 流 问 题 就 可 以 得 到 解决 。 但 遗憾 的 
E, 即使 对 一 些 简 单 的 信道 , 这 些 不 等 式 中 的 等 号 都 不 会 成 立 。 我 们 现在 使 用 前 面 已 经 考虑 过 的 
几 个 信道 来 检验 这 些 不 等 式 。 
。 多 接 入 信道 。 多 接 人 信道 是 由 多 个 输入 节点 与 一 个 输出 节点 构成 的 网 络 。 对 于 只 有 两 个 
用 户 的 多 接 人 信道 情形 , 定理 15.10.1 中 的 不 等 式 可 以 简化 为 对 于 某 个 联合 分 布 
play, x2) p(y|zr1, x2), 


RII(Xi;Y | X2) (15-339) 
RS I(X,; Y | X1) (15-340) 
Ri + Ri < I(X1, X2; Y) (15-341) 


若 限定 输入 分 布 为 乘积 分 布 , 并 且 取 凸 包 (定理 15.3.1), 那么 这 些 不 等 式 刻画 的 区 域 与 
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容量 区 域 是 一 致 的 。 
。 中 继 信 道 。 对 于 中 继 信 道 , 根据 如 图 15-36 所 示 选 取 不 同 的 子 集 , 我 们 会 获得 一 些 不 等 
R, 它们 给 出 了 定理 15.7.1 中 的 上 界 。 因 此 


C< sup mini I(X, X1; ¥), I(X;Y, Y, LX) (15-342) 
591 该 上 界 为 物理 退化 中 继 信道 与 带 反馈 的 中 继 信道 [127] 的 容量 。 
为 了 完善 对 一 般 网 络 的 讨论 , 我 们 现在 来 提 及 单 用 户 信道 的 两 个 尚未 应 用 到 多 用 户 信道 中 


的 特征 。 

。 信 源 信道 分 离 定 理 。 在 7.13 节 讨 论 了 信 源 信道 分 离 定理 , 它 表 明了 可 以 无 噪声 地 在 信道 
中 传输 信 源 当 且 仅 当 焙 率 小 于 信道 容量 。 这 使 我 们 可 以 仅 用 单个 数字 ( 灶 率 ) 描 述 信 源 和 
用 单个 数字 (容量 ) 来 描述 信道 。 多 用 户 情形 又 如 何 ? 我 们 期 望 一 个 分 布 式 信 源 可 通过 信 
道 传输 当 且 仅 当 信 源 的 无 噪声 编码 的 码 率 区 域 包含 于 信道 的 容量 区 域内 。 为 了 明确 起 
RL, 考虑 在 一 个 多 接 人 信道 上 传输 分 布 式 信 源 的 传输 问题 ,如 图 15-37 所 示 。 将 Slepian- 
Wolf 编码 的 结果 与 多 接 人 信道 容量 的 结论 结合 在 一 起 , 可 以 证 明 , 如 果 存 在 某 个 分 布 
p(q) p(x, lq) paola) plyl ziz), 使 得 


592 H(U | V) <1(X13 Y | X,,Q) (15-343) 
H(V/U) < I(X;Y | X1,Q) (15-344) 
H(U,V) < 1(X,,X2; ¥ | Q) (15-345) 


U— x, 
PC Vey) y—» (0,1) 


V 一 一， 一 Xy 





图 15-36 ”中 继 信道 图 15-37 相关 信 源 在 多 接 入 信道 上 的 传输 


成 立 , 那么 可 通过 信道 传输 信 源 并 且 以 很 小 的 误差 概率 将 其 恢复 。 这 个 条 件 等 价 于 说 信 
源 的 Slepian-Wolf 码 率 区 域 与 多 接 入 信道 的 容量 区 域 有 非 空 的 交 。 

但 此 条 件 是 否 必要 ? 答案 是 否定 的 , 这 可 用 一 个 简单 的 例子 得 到 说 明 。 考 虑 例 15.4.2 中 
的 信 源 在 二 元 擦 除 多 接 入 信道 ( 例 15.3.3) 上 的 传输 问题 。 易 知 Sepian Wolf 区 域 与 容量 区 域 不 
相交 , 但 是 很 容易 设计 出 一 个 编码 方案 , 使 得 信 源 可 以 在 该 信道 上 进行 传输 。 只 要 令 X = U， 
X= V, 那么 由 工 的 值 我 们 会 无 误差 地 知道 (U，V)。 因 此 , 条 件 (15- 345) 不 是 必要 的 。 

信 源 信道 分 离 定理 之 所 以 对 于 多 接 入 信道 情形 不 成 立 , 其 原因 在 于 多 接 入 信道 的 容 
量 随 着 信道 输入 间 的 相关 性 增加 而 增加 。 因 此 , 要 使 容量 最 大 化 , 需要 保留 信道 输入 间 
的 相关 性 。 然 而 Slepian-Wolf 编码 却 剔 除 这 个 相关 性 。 在 保留 相关 性 思想 的 基础 上 ， 
Cover et al.[129] 提 出 了 相关 信 源 使 用 多 接 人 信道 传输 的 可 达 区 域 。Han 与 Costa[ 273] 对 
相关 信 源 使 用 广播 信道 传输 也 提出 了 一 个 类 似 的 区 域 。 
带 反馈 的 容量 区 域 。 定 理 7.12.1 证 明 反馈 并 不 能 增加 单 用 户 离散 无 记忆 信道 的 容量 。 对 
于 有 记忆 信道 , 情况 则 不 一 样 , 反馈 可 以 使 发 送 器 预测 到 噪声 的 一 些 信 息 并 且 有 效 地 抗 
击 噪声 , 从 而 增加 容量 。 

多 用 户 情形 又 如 何 ? 相当 令 人 吃惊 , 即使 信道 是 无 记忆 的 , 反馈 也 确 能 增加 多 用 户 信 
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道 的 容量 区 域 。 这 首先 被 Gaarder 与 Wol[220j] 证 明 , 他 们 说 明了 反馈 是 如 何 有 助 于 增加 二 
元 擦 除 多 接 入 信道 的 容量 。 简 要 地 说 , 从 接收 器 到 两 个 发 送 器 的 反馈 充当 了 两 个 发 送 器 间 
的 分 离 信 道 的 角色 。 发 送 器 可 以 先 于 接收 器 将 相互 之 间 传 输 的 信息 译 码 。 然 后 , 它们 间 可 
相互 协作 以 解决 接收 端的 不 确定 性 , 从 而 以 具有 比 非 协作 容量 更 高 的 协作 容量 发 送信 息 。 
利用 该 方案 ,Cover 与 Leung[133] 给 出 了 具有 反馈 的 多 接 入 信道 的 可 达 区 域 。Willems[557] 
证 明了 该 区 域 包括 了 二 元 擦 除 多 接 入 信道 在 内 的 一 类 多 接 入 信道 的 容量 。Ozarow[410] 给 
出 了 两 个 用 户 的 高 斯 多 接 入 信道 的 容量 区 域 。 带 反馈 多 接 入 信道 的 容量 区 域 的 求解 问题 与 
具有 公共 输出 的 双 程 信道 的 容量 问题 存在 着 紧密 的 联系 。 

关于 网 络 信息 流 还 没有 统一 的 理论 。 但 是 毫 无 疑问 ,一 个 完整 的 通信 网 络 理论 将 会 对 通信 

与 计算 理论 产生 广泛 的 贡献 。 
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。 入 信道 我 们 知道 对 独立 的 X! 和 Xs, 如 果 
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多 接 入 信道 的 协作 容量 


xX 
(Wi,W,) 4 PCY >) f= (W,,W;) 
XxX, 


(a) 假定 X, 和 X 都 是 下 标 WiE 11, 22) WL 11, 2 | KWRA FRB X(W, 
W) Al X(W, W2) 都 依赖 于 两 类 下 标 。 求 容量 区 域 。 

(b) 针对 二 元 擦 除 多 接 入 信道 Y= Xi + X,,X;€10, 1}, 计算 这 个 容量 区 域 , 并 与 非 协 作 
区 域 情形 作 比 较 。 

多 接 入 信道 的 容量 。 求 出 如 下 的 每 个 多 接 入 信道 的 容量 区 域 : 

(a) 可 加 模 2 多 接 入 信道 , B XiE 10,1}, XE 
{0,1}, .Y=X1OX2o 

(b) 乘法 多 接 人 信道 , 即 X,E1-1,1}, ME 
{-1,1}, 这 = 区 X20 

多 接 入 信道 的 容量 区 域 的 割 集 解释 。 对 于 多 接 


Ri < I(X;Y 1X2) (15-364) 

RE 1(X23Y1X,) (15-365) 

R, + RaZ (XiX: Y) (15-366) 

那么 (Ri,R2?) 是 可 达 的 。 证 明 , 对 于 独立 的 Xi 
和 X2, A I(X;; Y|X2) = I(X1;Y,X2) 
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解释 信息 的 界 估计 分 别 可 以 作为 关于 穿越 割 集 Si, S 和 S; 的 网 络 流 的 码 率 的 界 。 
15.4 高 斯 多 接 入 信道 的 容量 。 对 于 AWGN 多 接 和 信道, 利用 典型 序列 方法 证 明 : 任何 一 对 可 
” 达 的 码 率 (R1,R;) 必 满足 


< Flog 1+ x] (15-367) 


R+ R, < (15-369) 


EAIA RK OSH EL ORL EEO EN HE 这 里 的 证 明 也 是 离散 多 接 
人 信道 情形 的 推广 。 

15.5 高 斯 多 接 入 信道 的 谤 定理 。 通 过 推广 码 字 的 功率 限制 离散 情形 的 逆 定 理 ,由 此 证 明 高 斯 多 
接 人 信道 的 逆 定 理 。 

15.6 ， 非 寻常 的 多 接 入 信道 。 考 虑 如 下 的 多 接 人 信道 : := = 了 = 10,11。 如 果 (Xi,X2)=(0,0)， 
WW Y=0. #(X,,X.)=(0,1), 则 Y=1。 如 果 (Xi,X2) = (1,0), 那么 了 =1。 而 如 果 (Xi， 
X,)=(1,1), W Y=0 和 Y=1 的 概率 均 为 二 。 

(a) 证 明码 率 二 元 组 (1,0) 和 (0,1) 都 是 可 达 的 。 

(b) 证 明 对 于 任意 非 退 化 的 分 布 p (2) plr), BA IX, X23 Y)<1. 

(c) 讨论 : 存在 该 多 接 人 信道 的 容量 区 域 中 的 点 , 它们 只 能 通过 分 时 操作 达到 。 也 就 是 说 ， 
对 于 任意 的 乘积 分 布 p(xz1)p(x2), 存在 可 达 的 码 率 对 (R1,R,) 落 在 信道 的 容量 区 域 
内 , 但 并 不 在 如 下 所 定义 的 区 域 中 : 


( 
1 Jiog(1 + x] (15-368) 
log{ 1 十 一 一 一 一 


<“ 2 
1 Piip, 
2 


Ry <1( X13 ¥ | X) (15-370) 
Ry <1(X,sY 1X1). (15-371) 
R, + Ro < 1(X;,X23Y) (15-372) 


因此 , 凸 化 操作 严格 地 扩大 了 容量 区 域 。 该 信道 是 由 Csiszár 和 Komer[149], 以 及 
Bierbaum 和 Wallmeier[ S9] 独 立 提 出 的 。 

15.7 ”广播 信道 的 容量 区 域 的 凸 性 。 设 CSCR 为 广播 信道 的 所 有 可 达 码 率 对 及 = (R, R) ÉR 
的 容量 区 域 。 利 用 分 时 操作 讨论 证 明 C 是 一 个 凸 集 。 具 体 地 讲 ， 就 是 证 明 : 当 RO A R® 
均 为 可 达 的 , 那么 对 于 0 生生 1,，AROD + (1-A)RO HARTA. 

15.8 确定 性 相关 信 源 的 Slepian-Wolf 码 率 区 域 。 找 出 并 简 述 关于 信 源 (X，Y) 的 同步 数据 压缩 
的 Slepian-Wolf 码 率 区 域 , 其 中 y= f(z) 为 关于 z 的 某 个 确定 性 函数 。 

15.9 .Slepian-Wolf 码 率 区 域 。 设 X; 为 i.i.d~Bernoulli( p), Z; 8 i.i.d~Bernoulli(,), H. Z 独立 
FX, 并 令 Y= XG;Z( 模 2 和 )。 假 定 以 码 率 Ri WRX, 以 码 率 R HRY, 允许 以 误差 概 
率 趋 于 0 使 得 XX 和 YY 恢复 的 码 率 区 域 是 什么 ? 

15.10 “广播 信道 的 窜 量 仅 依赖 于 条 件 边 际 分 布 。 考 虑 一 般 的 广播 信道 (X， 玉 X Yo, p(y1, yz| 
”z)。 证 明 容量 区 域 仅 依赖 于 p(yi| xz) 和 p(ys|x)。 为 证 明 该 命题 , 可 以 对 任意 给 定 的 

((27%:, 28), n), 令 
P{® = P| W, (Y) 4 Wil (15-373) 
PS?) = P{W,(¥,) Æ Wo} (15-374) 
P™ = P{(W,,W2) (Wi, W2)! (15-375) 


O 
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然后 证 明 maxi P”, PS} < p™ < PY» 十 PS”? 
由 此 可 通过 简单 的 讨论 得 到 命题 的 结论 。 注 : 误差 概率 P(”) 的 确 依 赖 于 条 件 联 合 分 布 
p(y 212), BES P'" 会 趋 于 零 (以 码 率 (Rj,R,)) 并 不 (除非 条 件 边 际 分 布 pyle), 
p(y2|x))。 
15.11 进化 广播 信道 的 逆 定 理 。 如 下 不 等 式 链 可 以 证 明 退 化 离散 无 记忆 广播 信道 的 逆 定 理 。 给 
出 每 个 有 标示 字母 的 不 等 式 成 立 的 理由 。 
为 证 明 退 化 广播 信道 容量 逆 定 理 的 具体 设置 : 
(Wi, Wa): > XY (Wi, W2) > Yi > Y; 
。 编 码 为 
fa :2 x 2 > An 
。 译 码 为 
g, VR — 2R h, VE > 2 
4 U,=(W2,Y,'), WA 


nR? ram] (W253 Y3) (15-376) 
二 > IW; Yas 12) (15-377) 
2 ACY»: | YP) -HOY | Wa, YE) (15-378) 
SEH Yx) - H( Yz | W2, YY!, YT) (15-379) 
SIY) -HOY | Wa, YE) (15-380) 
SS Us Ya) (15-381) 
逆 定理 的 证 明 续 。 给 出 如 下 带 有 标示 字母 的 不 等 式 成 立 的 理由 : 

MR Spano! (W13 Yi) (15-382) 
SI(Wi; Yi, W2) (15-383) 
ŠIW; Yi | W2) (15-384) 
2 SW Yi | Yy', W2) (15-385) 
LUX Yu | U;) (15-386) 


下 面 令 Q HHUA PQ =i) =1/n i= 1,2). 的 分 时 随机 变量 。 那 么 , 关于 分 布 pla) 
plulg)plelu, g) p(y ylz), 判断 下 列 不 等 式 : 


RiI 和 TOXoiyiolUa,Q) (15-387) 

RoX I( Uo; Y29 | Q) (15-388) 

适当 的 定义 U, 关于 某 个 联合 分 布 plu)plelu)p vosle), 该 区 域 等 于 下 面 区 域 的 点 
闭 包 : 

Ri <1(X; Yı | U) (15-389) 


Ry < I(U; Y3) (15-390) 
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15.12 


15.13 


15.14 


15.15 


15.16 





容量 区 域 的 交点 
(a) 对 于 退化 的 广播 信道 X 一 Yi 一 Y;, 求 出 容量 区 域 边界 分 别 在 Ri WAM R 轴 上 的 交 
点 a Alb. 
R, 
b 





(b) 证 明 ba. 
退化 广播 信道 。 求 如 下 图 中 所 示 的 退化 广播 信道 的 容量 区 域 。 


lp l-a 











i-p 1-a 


带 未 知 参 数 的 信道 。 假 设 给 定 一 个 参数 为 p 的 二 元 对 称 信道 , 则 该 信道 容量 为 C=1- 
有 H(p)。 现 在 我 们 把 问题 稍微 改动 一 下 。 假 定 接收 器 仅 知道 pC lpi, p21, Bl p= pi 或 
b=p 其 中 pl 和 ps 是 两 个 给 定 的 实数 。 然 而 , 发 送 器 知道 参数 p 的 确定 值 。 设 计 两 
个 编码 , 一 个 用 于 p= pi 的 情形 , 另 一 个 用 于 p= p: 的 情形 , 使 得 当 p= p 时 ,发 送 器 
到 接收 器 的 信息 传输 码 率 ~C(p1); 而 当 p= ps 时, BRESC p) (RF: 在 不 影响 渐 
近 码 率 的 前 提 下 , 设计 一 种 使 接收 器 能 够 得 到 p 值 的 方法 。 给 码 字 前 面 加 上 一 些 由 1 组 
成 的 前 缀 序列 就 可 以 实现 了 。) 
双 程 信道 。 考 虑 如 图 15-6 所 示 的 双 程 信道 , 其 中 输出 Y, 和 Y, 仅 依赖 于 当前 的 输入 Xi 
和 X20 
(a) 利用 针对 两 个 发 送 器 的 独立 编码 方案 , 证 明 对 于 某 个 乘积 分 布 plr) plr) py 
| zl,zz)， 满 足下 面条 件 的 码 率 区 域 是 可 达 的 : 
RI< I(Xi; Y2 | X2) (15-391) 
R< I( X23 Y, | Xi1) (15-392) 
(b) 证 明 : 对 于 双 程 信道 , 其 误差 概率 可 以 是 任意 小 的 任何 一 个 编码 的 码 率 必 定 存 在 某 
个 乘积 分 布 p(xi, x2) p(y1, y2| Xx1, TX2), 使 得 
RI I(Xi1; Y2 | X2) (15-393) 
R< I( X23 Yi | Xi) (15-394) 
关于 双 程 信道 的 容量 的 内 部 界 和 外 部 界 的 概念 是 由 香农 [486] 给 出 的 。 他 还 证 明了 在 二 
元 乘法 信道 (4 = X2= V1 == 10,1), Y= Y2= XiX2) 的 情形 ， 容量 区 域 的 内 部 界 和 
外 部 界 不 重合 。 但 对 于 双 程 信道 的 容量 区 域 情形 , 仍然 是 一 个 未 解决 的 问题 。 
多 接 入 信道 。 多 接 人 信道 的 输出 了 = Xi +(X), 其 中 X, 和 Xz 都 是 实数 而 且 EXS 
1,z>0 


P,, E(X3)<P2, = o 
1 ( >) 2 sgn( x) ~1,2<0 
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注意 , 此 信道 中 有 干扰 但 没有 噪声 。 
(a) 找 出 容量 区 域 。 
(b) 给 出 一 种 能 达到 此 容量 区 域 的 编码 方案 。 
15.17 Slepian-Wolf 定理 。 设 (X，Y) 有 联合 概率 分 布 函数 p(z,y): 








1 2 3 
a B B 
B a 8 
B 8 a 


其 中 p= LS, (2: 这 是 联合 而 非 条 件 概率 分 布 函数 。) 
(a) 找 出 此 信 源 的 Slepian-Wolf 码 率 区 域 。 
(b) 用 a 来 表示 Pri X= YI. 
(c) MR a=1/3, 码 率 区 域 是 多 少 ? 
(d) MR < =1/9, 码 率 区 域 是 多 少 ? 
15.18 平方 信道 。 下 面 多 接 和 信道 的 容量 有 多 大 ? X,€1-1,0,1}, XEl-1,0,1}, Y=Xi+ 
XZ. 
(a) 找 出 容量 区 域 。 
(b) 描述 p* (zi) 和 p* (zz) 达 到 容量 区 域 的 边界 的 某 点 的 情形 。 
15.19 Slepian-Wolf 定理 。 两 个 发 送 器 分 别 知道 随机 变量 Uj- 和 U,。 随 机 变量 (Ui, Us) 有 如 下 





的 联合 分 布 : 
U,\ U: 0 1 2 oo m~1 
0 a B 6 7 B 
m-1 m-1 m~1 
1 一 2 一 0 0 0 
m-1 
2 二 0 0 0 
m-i -X 0 0 ses 0 
m1 





其 中 a+ 8+7y=1。 找 出 一 个 公共 接收 器 可 以 对 这 两 个 随机 变量 可 靠 地 译 码 的 码 率 ( 玉 1， 
R,) 的 区 域 。 
15.20 多 接 入 。 
(a) 找 出 多 接 人 信道 Y= XX:( 其 中 X1E 12, 4), LEN, 21) 的 容量 区 域 。 
(b) 假设 Xi 的 值 域 是 {1, 21, 容量 区 域 会 减 小 吗 ? 为 什么 ? 
15.21 广播 信道 。 考 虑 下 面 的 退化 广播 信道 。 


1-a,,. 


(a) 信道 X> Y, 的 容量 是 多 大 ? 0 0 0 
(b) 信道 X> Y, 的 容量 是 多 大 ? a f o ， 
(c) 此 广播 信道 所 有 (Ri,R) 可 达 的 容量 区 域 是 什 o 0 


么 ? 简单 勾画 出 来 。 | 
15.22 立体 声 系统 。 对 于 一 个 普通 的 接收 者 来 说 , 左 耳 和 xo a no â Ta on) 
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右 耳 信号 的 总 和 与 差别 是 分 别 被 压缩 的 。 设 Z, 为 Bernoulli( p;) Z. 为 Bernoulli( p.), 假 

设 Z; 和 2, 是 相互 独立 的 。 令 六 = Zi1+2Z，，Y= 2j 一 Zs。 那 么 ， 

(a) (Ri,R,) 可 达 时 的 Slepian-Wolf 码 率 区 域 是 什么 ? [604] 
(b) 与 (Rz ，Rz ) 的 码 率 区 域 相 比 是 大 还 是 小 ? 为 什么 ? 








这 是 做 这 部 分 的 一 种 简单 方法 

15.23 ”乘法 多 接 入 信道 。 找 出 并 描述 下 面 的 乘法 多 接 人 信道 的 容量 区 域 : 
其 中 OX, € {0,1}, X.€ {1,2,3}, Y= XX2。 

15.24 分 布 式 数据 压缩 。 令 Z, Z Zs 为 独立 的 Bernoulli(p)。 找 出 描述 (Xi1, 义 ;, X3) 0 
Slepian- Wolf 码 率 区 域 , 其 中 X1= Z,, X= Z+ Z, X3= 2+ 22+ Z3 


x; 


Xy (X, Xs x) 
x, 
Y 
Xy 
X; 


15.25 无 噪声 多 接 入 信道 。 考 虑 下 面 有 两 个 二 进 制 输入 Xi, X€ 10,1) 和 输出 Y= (X1, X2) 4 
多 接 入 信道 。 
(a) 找 出 容量 区 域 。 注 意 , 每 个 发 送 器 以 信道 容量 传送 。 
(b) ES BUMER BKM, Ri 0, R220, Ry + Ra< max I(X1, X2; Y)o 证 明 吞 吐 率 
Ri + R, 不 增加 但 容量 区 域 增加 。 
15.26 无 限 带 宽 多 接 入 信道 。 对 于 具有 无 限 带宽 的 高 斯 多 接 入 信道 , 求 其 容量 区 域 。 证 明 所 有 
用 户 都 能 按照 各 自 的 容量 需求 发 送 ( 即 , 无 限 带 宽 消 除了 相互 干扰 )。 


15.27 多 接 入 识别 。 令 Cla) =L logt + o) ERREA x 的 高 斯 信道 首 的 信道 容量 。 证 明 
P P,+P 
c7) cls, “x)= c( 一 六 2) 

这 表明 两 个 独立 用 户 可 以 像 他 们 已 经 各 自 获 得 了 授权 那样 发 送信 a ho 

15.28 ” 频 分 多 址 (FDMA)。 求 出 吞吐 率 
P, P, 
R,+ R= wilog( + (W - W, Plog (4 + Iw Ww ) 
关于 W, 的 最 大 值 , 由 此 证 明 , 对 于 FOMA, 带宽 应 该 与 发 送 功率 成 比例 。 


15.29 三 语 演讲 者 广播 信道 。 一 个 演讲 者 能 讲 荷 兰 语 、 西 班 牙 语 和 法 语 三 种 语言 , 他 希望 能 够 
与 D、S 与 F 三 个 人 同时 交流 。 如 果 D 只 能 听 懂 荷兰 语 但 当 西 班 牙 单词 讲 出 来 之 后 他 能 
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15.30 


15.31 


15.32 


15.33 


15.34 


区 分 出 它 不 是 荷兰 语 和 法 语 单词 。 类 似 地 , 甚 余 两 个 人 分 别 仅 能 听 懂 法 语 或 者 西班牙 
语 , 但 可 以 区 分 什么 时 候 讲 的 是 外 文 单词 并 且 属 于 什么 语种 。 假 设 荷兰 语 , 西班牙 语 与 
法 语 的 每 一 种 语言 均 为 M 个 单词 。 即 M 个 荷兰 语 单词 ，M 个 法 语 单词 以 及 M 个 西班牙 
单词 。 
(a) 三 语 演讲 者 可 以 与 D 讲 话 的 最 大 速率 是 多 少 ? 
(b) 如 果 他 以 最 大 速率 与 D 讲 话 , 那么 他 同时 能 与 S 讲 话 的 最 大 速率 是 多 少 ? 
(c) 如 果 他 以 (b) 中 的 联合 速率 向 D 与 S 讲 话 , 他 还 能 以 正 的 速率 与 FF 通话 吗 ? 如 果 能 ， 
该 速率 是 多 少 ? 如 果 不 能 , 为 什么 不 能 ? 
移动 电话 的 并 联 高 斯 信道 。 假 设 发 送 者 X 向 两 个 固定 基站 发 送信 号 X, 平均 功率 为 Po 
设 两 个 基站 接收 到 信号 分 别 为 Yi 和 Y,, 其 中 
Y= ajX+Z, 
Y2 = aX + Z2 
其 中 Z,~N(0, Ni), Z22~N(0, N3), BZ, AZ, 是 相互 独立 的 。 我 们 假设 a 在 发 射 分 
组 内 是 常数 。 
(a) 假设 存在 一 个 公共 译 码 器 Y= (Yi,Y?) 可 以 使 信号 Yi 和 Y 同时 译 码 ， 从 发 送 者 到 
公共 接收 器 的 信道 容量 有 多 大 ? 
(b) 如 果 接 收 器 Y, 和 Y, 可 以 独立 地 对 信号 进行 译 码 , 这 就 变 成 一 个 广播 信道 。 令 Ri 
是 基站 1 SB, R 是 基站 2 的 码 率 。 找 出 此 信道 的 容量 区 域 。 
高 斯 多 接 入 信道 。 从 信道 容量 的 角度 看 , 如果 每 个 用 户 需要 的 功率 为 P, 那么 对 于 m^ 
用 户 的 一 个 组 , 可 以 用 一 个 高 斯 多 接 入 信道 来 描述 , 且 满 足 


dR, = (RF) (15-395) 


其 中 C(z)= 寺 log(1+ z)，N 是 接收 器 的 噪声 功率 。 一 个 功率 为 Po 的 新 用 户 希望 加 入 。 

(a) 在 不 干扰 其 他 用 户 的 前 提 下 ,他 能 以 多 大 码 率 发 送 ? 

(b) 为 了 使 新 用 户 码 率 与 其 他 用 户 的 组 合 通信 码 率 C(mP/AN) 相 等 , 他 的 功率 Po 应 该 是 
BK? 

确定 性 广播 信道 的 逆 。 确 定性 广播 信道 定义 为 一 个 输入 X 和 两 个 输出 Zi 和 Y, 组 成 的 

系统 , 其 中 输出 Yi 与 Y, 是 输入 X HBR FE, Yi1= fi(XX),，Y2= fo(X)。 令 Ri 和 

R, 是 满足 信息 可 以 被 传送 给 两 个 接收 者 的 码 率 。 证 明 : 


Ri S HCY;) (15-396) 
R,< H( Y2) (15-397) 
R, + RoS H(i, Y2) (15-398) 


多 接 入 信道 。 考 虑 多 接 人 信道 
Y = X, +X, (mod4), 其 中 Xi € {0,1,2,3},X, € 10,1| 
(a) 求 容 量 区 域 (Ri,R2z)。 
(b) 最 大 吞吐 率 R+ R, 是 多 少 ? 
分 布 式 信 源 压缩 。 令 


0,g 0,g 
A U= ZZ, V= Zit Z220 假设 Zi 5 Z, 相互 独立 。 这 样 诱导 出 关于 (U， V) 的 联合 概 
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率 分 布 。 令 (Ui, Vi) 服 从 该 分 布 的 独立 同 分 布 序列 , 且 发 送 者 工 描述 U" 的 码 率 为 Ri, 而 
发 送 者 2 HRV 的 码 率 为 R,。 
(a) 为 了 在 接收 端 恢 复 (U”, V), 求 相 应 的 Slepian-Wolf 码 率 区 域 。 
(b) 关于 (2 , 刀 )， 接 收 器 还 剩 多 大 的 不 确定 性 (条 件 箭 )? 
15.35 有 成 本 的 多 接 入 信道 容量 ,使 用 字符 xz 的 成 本 记 为 >(z), 使 用 码 字 2” 的 成 本 则 为 r(xz") 


= 250" rC RA, n) BEME 


n 
TD)" ,r(xi(w)) <r,VwEe 2 


那么 称 其 满足 成 本 约束 ro 
(a) 寻找 带 有 成 本 约束 r 的 离散 无 记忆 信道 的 信道 容量 C(r) 的 表达 式 。 
(b) 如 果 发 送 者 Xi 的 成 本 约束 为 r 而 发 送 者 X 的 成 本 约束 为 r2, 那么 对 于 (XX1 XY, 
p(y|z1,X2) ,站 ), 寻找 离散 无 记忆 信道 的 信道 容量 区 域 的 表达 式 。 
(c) 证 明 (b) 的 逆 命 题 。 
15.36 Slepian-Wolf 定理 。 从 三 副 扑 克 牌 中 抽出 三 张 , 分 别 分 给 发 送 者 X, X 与 XX3。 如 果 三 个 
发 送 者 按 下 图 的 方式 发 送信 息 给 某 个 接收 者 ， 


x? — (X47) 
X — AX) 译 码 器 (RERE R) 
X; — MX) 


假设 (Xi Xu Xs EMAR AMIR, 2,，31 的 所 有 置换 集 上 的 均匀 分 布 。 那 么 ， 
他 们 分 别 需要 以 多 大 的 码 率 传输 才能 使 接收 者 恢复 牌 上 的 信息 ? . 


历史 回顾 


本 章 内 容 是 在 El Gamal 和 Cover 的 评论 性 文章 [186] 的 基础 上 整理 而 成 的 。 香 农 [486] 于 
1961 年 对 双 程 信道 进行 了 研究 ,并 且 给 出 了 关于 容量 区 域 的 内 界 与 外 界 概念 。Dueck[175] 与 
Schalkwijk[464,465] 提 出 了 针对 双 程 信道 的 某 些 编码 方案 , 其 可 达 码 率 能 够 超过 香农 的 内 界 ; 该 
信道 的 外 界 是 由 Zhang 等 在 [596] 以 及 Willems 与 Hekstra 在 [558] 中 得 到 。 

Ahlswede[7] 和 Liao[355] 找 到 了 多 接 人 信道 的 容量 区 域 , 随后 Slepian 与 Wolf[ 501] 将 其 推广 
为 带 有 公共 信息 的 多 接 人 信道 情形 。Gaarder 与 Wol[220] 首 次 证 明 反 馈 可 以 增加 离散 无 记忆 多 
接 入 信道 的 容量 。Cover 和 Leung[ 133] 关 于 带 反馈 多 接 入 信道 提出 了 可 达 区 域 的 概念 , 并 证 明 这 
个 区 域 对 于 由 Wilems[ 557] 提 出 的 一 类 多 接 入 信道 都 是 最 优 的 。Ozarow[ 410] 确 定 出 带 反 馈 的 两 
用 户 高 斯 多 接 人 信道 的 容量 区 域 。Cover et al.[129] 以 及 Ahlswede 和 Han[ 12] 也 考虑 过 相关 的 信 
源 在 一 个 多 接 和 人 信道 上 的 传输 问题 。Slepian-Wolf 定理 的 证 明 是 由 Slepian 和 Wolf[502] 给 出 的 ， 
Cover 在 [122] 中 利用 装 盒子 的 方法 将 定理 推广 到 了 联合 遍历 信 源 情形 。 

Cover 在 1972 年 发 表 的 文章 [119] 中 对 广播 信道 进行 了 研究 , 而 退化 广播 信道 的 容量 区 域 是 
由 Bergmans[55] 和 Gallager[225] 获 得 的 。 针 对 退化 广播 信道 提出 的 释 加 编码 方案 也 是 低 噪声 的 
广播 信道 (Karmer 和 Marton[324]), 大 容量 的 广播 信道 (El Gamal[185]), 以 及 具有 退化 消息 集 的 
广播 信道 (Karner 和 Marton[325]) 等 信道 的 最 优化 方案 。Van der Meulen[ 526] 和 Cover[121] 提 出 
了 针对 一 般 广 播 信道 的 可 达 区 域 。 确 定型 广播 信道 的 容量 是 由 Gelfand 与 平 斯 克 [242, 243, 423] 
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以 及 Marton[377] 发 现 的 。 其 中 关于 广播 信道 最 为 著名 的 可 达 区 域 定理 当 属 Marton[377]。 同 时 
El Gamal 和 Van der Meulen[188] 给 出 了 Marton 区 域 的 一 个 简单 证 明 。El Gamal 还 在 [184] 中 证 明 
反馈 并 不 会 使 一 个 物理 退化 广播 信道 的 容量 增加 。Dueck 在 [176] 中 举 出 了 一 个 简单 的 例子 说 明 
反馈 能 够 使 无 记忆 广播 信道 的 容量 增加 ; Ozarow 和 Leung[411] 对 于 带 反 馈 的 高 斯 广播 信道 描绘 
了 一 个 编码 程序 , 由 此 说 明 在 此 情形 下 反馈 的 确 能 增 大 容量 区 域 。 

中 继 信 道 是 由 Van der Meulenf 528] 引 入 的 ，Cover 和 El Gamal 在 [127] 中 获得 了 退化 中 继 信 
道 的 容量 区 域 。Carleial 在 [85] 中 介绍 了 具有 功率 约束 的 高 斯 干扰 信道 并 且 证 明了 非常 强 的 干扰 
等 于 总 体 无 干扰 。Sato 与 Tanabe 在 [459] 中 将 Carleial 的 工作 推广 到 了 具有 强 干扰 的 离散 于 扰 信 
道 。Sato[457] 和 Benzel[ 51] 研 究 了 退化 的 干扰 信道 。 关 于 一 般 干 扰 信 道 的 最 著名 的 可 达 区 域 定 
理 是 由 Han 和 Kobayashi[274] 给 出 的 。 该 区 域 给 出 了 干扰 参数 大 于 1 的 高 斯 干扰 信道 的 容量 , 其 
证 明 见 [274](Han 与 Kobayashi) 与 [458](Sato)。 对 于 干扰 信道 ， Carleial[ 84] 证 明了 有 关 容 量 区 域 
的 更 新 界 。 | 

带 边 信 息 的 编码 问题 是 Wyner 和 Ziv 在 文献 [573] 以 及 Wyner 在 [570] 中 介绍 的 ; 而 对 于 该 问 
题 的 可 达 区 域 的 讨论 则 是 由 Ahlswede 与 Korner 的 文章 [13] 以 及 其 他 一 系列 文章 ,如 Gray 和 
Wyner[261], Wyner[571,572] 完 成 的 。Wyner 和 Ziv[574] 解 决 了 带 有 边 信 息 的 率 失真 函数 的 求 
解 问 题 。 具 有 边 信 息 的 率 失真 的 信道 容量 备份 是 由 Gelfand 与 平 斯 克 [243] 解 决 的 。Cover 与 
Chiang[113] 对 两 种 结论 的 对 偶 性 进行 了 探索 。El Gamal 和 Cover[187] 对 多 重 描述 问题 进行 了 
探讨 。 

Korner 和 Marton[ 326] 讨 论 了 如 何 对 两 个 随机 变量 的 函数 进行 编码 的 问题 , 并 给 出 了 对 于 两 
个 二 值 随 机 变量 的 模 2 和 的 编码 的 一 个 简单 方法 。Csiszar 和 Karner 在 文献 [148],[149] 中 针对 描 
述 信 源 网 络 提出 了 一 般 框架 。Berger 和 Yeung[ 54] 论 述 了 一 个 公共 模型 使 得 Slepian-Woalf 编码 ， 
带 边 信息 的 编码 以 及 带 边 信息 的 率 失真 编码 等 都 成 为 其 特殊 情形 。 

1989 年 , Ahlswede 与 Dueck[17] 引 入 了 由 通信 信道 进行 识别 的 问题 , 该 问题 可 以 视 为 一 个 发 
送 器 发 送 消息 给 多 个 接收 器 而 每 个 接收 器 只 需 知道 某 条 消息 是 否 已 经 发 送 了 。 在 这 种 情况 下 ， 
所 有 可 能 被 安全 地 发 送 的 消息 之 集中 , 能 够 被 识别 数目 是 随 分 组 长 度 的 增长 按 指数 成 倍 地 增长 ， 


该 文章 的 关键 结论 是 证 明了 对 于 任何 容量 为 C 的 噪声 信道 , 有 22 条 消息 能 够 被 识别 。 围 绕 该 问 
题 , 引出 了 一 系列 的 论文 [16, 18, 269, 434], 内 容 包括 带 反馈 的 信道 以 及 多 用 户 信道 。 

另 一 个 活跃 的 研究 领域 是 多 输入 多 输出 (MIMO) 系 统 的 分 析 或 者 时 空 编码 。 对 于 无 线 通 信 
系统 而 言 , 这 要 在 发 射 和 接收 端 用 到 多 个 天 线 来 获得 来 自 于 多 路 的 多 样 性 增益 的 优势 。 对 于 这 
种 多 天 线 系 统 的 分 析 是 Foschini[217] Teletar[512], Rayleigh 与 Cioffi[ 246] 等 的 工作 , 他 们 证 明 
了 在 衰退 环境 中 通过 多 天 线 获得 的 多 样 性 所 导致 的 容量 增益 ， 可 以 由 通过 传统 的 同等 化 和 交错 
技术 达到 的 单 用 户 信道 容量 来 替代 。 3 IEEE Transactions in Information Theory[70] 的 一 个 专 
题 , 已 经 有 许多 论文 从 该 技术 的 不 同 侧面 进行 了 研究 。 

希望 全 面 了 解 有 关 网 络 信息 理 论 的 知识 的 读者 可 以 参阅 El Gamal 和 Cover[ 186], Van der 
Meulen[ 526 - 528], Berger[53] 以 及 Csiszár 和 Karner[ 149], Verdu[538], Cover[111], UR 

Ephremides 和 Hajek[ 197]. 
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第 16 章 信息 论 与 投资 组 合理 论 


股票 市 场 中 财富 的 增长 率 与 该 市 场 的 焙 率 之 间 的 对 偶 关 系 是 引 人 注 意 的 。 特 别 , 我 们 将 寻 
找 既 是 竞争 最 优 又 是 增长 率 最 优 的 投资 策略 。 这 完全 类 似 于 香农 编码 既是 竞争 最 优 又 是 期 望 描 
述 码 率 最 优 。 我 们 也 将 针对 遍历 的 股票 市 场 过 程 来 寻找 财富 的 渐 近 增长 率 。 我 们 将 以 对 万 能 投 
资 组 合 的 讨论 作为 本 章 的 压 辅 戏 , 这 种 万 能 投资 组 合 的 相对 收益 与 最 佳 恒定 持仓 比例 方法 (事后 
诸葛 亮 方式 ) 所 得 的 渐 近 增长 率 相差 无 几 。 

在 16.8 节 中 , 我 们 针对 一 般 遍 历 过 程 的 渐 近 均 分 性 质 给 出 一 种 "三 明治 "证 明 方法 ,这 是 受 
到 了 关于 平稳 遍历 的 股票 市 场 中 的 最 优 投资 组 合 的 启发 而 得 的 。 


16.1 股票 市 场 : 一 些 定义 


用 数学 语言 表述 (不 考虑 股票 间 的 相互 关系 ), 一 个 股票 市 场 是 由 各 只 股票 为 分 量 组 成 的 列 向 量 X= 
(Xi Xass Xa) CEIR t 表示 转 置 ,以 下 间 。 译 者 注 ) ,XX 宇 0,i=1,2,…,m, 其 中 m 是 该 股票 市 
场 中 所 有 股票 的 只 数 ，X 称 为 相对 价格 (price relative), 其 为 第 i 只 股票 当天 的 收盘 价 与 开盘 价 之 比 。 
所 以 , 实际 情况 中 X 一 般 非 常 接 近 于 1. 例如, 当成 =1.03 时 , 它 表 示 第 i 只 股票 当天 上 涨 了 3% 。 

设 F(x) 是 相对 价格 向 量 的 联合 分 布 , X~ F(x). —P4t RAA (portfolio) 27 HH b= (b, 
ba, ,bm)',b; 宇 0, 5b, =1, HX, 它 就 是 将 资金 如 何 按 比例 分 散 投资 到 各 股 上 的 分 配方 案 , 其 
中 b 理解 为 某 人 投资 第 i 只 股票 的 资金 占 其 总 投资 的 比例 。 如 果 采 用 投资 组 合 策略 b, 而 股票 向 


量 为 X, 那么 相对 收益 ( 指 当天 收盘 时 的 总 市 值 与 开盘 时 的 总 市 值 之 比 ) 则 为 S=b'X= > bi Xio 


我 们 希望 在 某 种 意义 下 使 S 最 大 化 。 但 S 是 一 个 随机 变量 , 其 分 布依 赖 于 投资 组 合 b, 所 以 
在 关于 S 的 最 佳 分 布 的 选择 问题 上 存在 着 争论 。 标 准 的 股票 投资 理论 基于 考虑 S 的 一 阶 矩 和 二 
阶 矩 ， 即 在 方差 约束 之 下 使 得 S 的 期 望 值 最 大 化 的 问题 。 由 于 一 阶 矩 和 二 阶 邱 很 容易 计算 ， 因 
此 , 该 理论 比 处 理 S 的 整体 分 布 的 理论 更 为 简洁 。 





股票 市 场 中 的 夏普 - 马 科 维 蒋 (SharpeMarkowitz) 投 资 理论 的 一 个 基础 是 均值 一 方差 分 析 法 ， 


而 且 它 在 商业 分 析 和 其 他 众多 领域 中 也 有 着 广泛 的 应 用 。 图 16-1 描述 的 就 是 各 种 投资 组 合 可 能 
获得 的 所 有 均值 -方差 对 的 集合 , 该 区 域 边界 的 上 半 部 分 对 应 于 占 优势 的 投资 组 合 : 在 给 定 的 方 
差 之 下 , 它们 的 均值 最 大 。 该 边界 点 的 集合 称 为 有 效 边界 , 如果 谁 只 想 追 求 均值 和 方差 , 那么 他 
可 以 只 沿 着 该 边界 进行 投资 运作 。 

正常 情况 下 ， 当 引入 无 风险 资产 (risk-free asset) (例如 现金 、 国 债 , 它们 都 能 够 补偿 一 定 的 利 
息 且 方差 为 0 ) 之 后 会 使 该 理论 得 到 简化 。 无 风险 资产 在 图 形 中 对 应 于 立轴 上 的 一 个 点 。 将 无 
风险 资产 与 各 种 股票 组 合 在 一 起 , 可 以 获得 从 无 风险 资产 出 发 到 有 效 界面 的 切线 下 方 的 所 有 点 。 
此 时 该 直线 变 成 为 有 效 边界 的 一 部 分 了。 

有 效 界面 理论 意味 着 每 只 股票 在 其 风险 固定 之 下 有 其 内 在 的 价值 。 股 票 价格 的 理论 称 为 资 
本 市 场 资产 定价 模型 (capital asset pricing model, CAPM), 其 作用 是 评估 个 股 的 价值 到 底 是 被 市 场 
高 估 了 还 是 低估 了 。 注意 随机 变量 的 均值 给 出 了 关于 该 随机 变量 独立 同 分 布 随机 序列 之 和 的 长 
期 习性 的 信息 。 但 是 , 在 股票 市 场 中 , 假设 每 天 都 在 进行 再 投资 , 所 以 到 了 第 n 天 收盘 时 , 相对 收 
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均值 





Efficient 
frontier 







无 风险 资产 








方差 
图 16-1 夏普 - 马 科 维 茨 理论 : 所 有 可 获得 的 均值 -方差 对 的 集合 


益 是 这 ”天 中 每 天 的 相对 收益 之 乘积 。 该 乘积 的 行为 不 是 由 期 望 值 本 身 ， 而 是 由 期 望 值 的 对 数 
来 决定 。 这 启示 我 们 给 出 如 下 关于 增长 率 的 定义 : 
定义 ”股票 市 场 中 的 投资 组 合 b 关于 股票 的 分 布 F(x) 的 增长 率 (growth rate) 定 义 如 下 : 


W(b,F) = fiog bx dF(x) = E(log b'X) (16-1) 
如 果 对 数 的 基底 是 2, 增长 率 也 称 为 双 倍 率 (doubling rate). 
定义 ”投资 组 合 b 的 最 优 增长 率 W (下) 定义 如 下 
W* (F) =maxW(b, F) (16-2) 
其 中 最 大 值 遍 取 所 有 可 能 的 投资 组 合 6,50, 5;=1. 
定义 ”如 果 投 资 组 合 b 使 得 增长 率 Wob, PAIRE, 那么 称 为 对 数 最 优 投资 组 合 或 者 
增长 最 快 的 投资 组 合 。 
为 了 说 明 增 长 率 定义 的 合理 性 , 给 出 下 面 的 定理 , 表明 相对 收益 按 2°” 速度 增长 。 
定理 16.1.1 设 X,Xo,… ,XX 为 服从 F(x) 的 独立 同 分 布 随 机 序列 。 令 


st = [[b"'x (16-3) 
是 在 恒定 持仓 比例 投资 组 合 b ZT n 天 之 后 的 相对 收益 ， 那么 
二 logS; 一 W' WERI (16-4) 
证 明 : 由 强大 数 定律 可 知 ， 
Llogs; = + > log b*'X, (16-5) 
>Ww’ 依 概 率 1 (16-6) 
所 以 S*: 二 2*w 。 口 


接 下 来 讨论 增长 率 的 一 些 性 质 。 
引 理 16.1.1 W(b,F) 关 于 b 是 四 函数 ,关于 下 是 线性 的 。 HW (下 ) 关 于 下 是 三 还 数 。 
证 明 : 增长 率 公式 为 
W(b,F) = fiog b'x dF(x) (16-7) 
由 于 积分 关于 下 是 线性 的 , 所 以 W(b, FEF 正 是 线性 的 。 又 由 于 对 数 函 数 的 凸 性 , 可知 
log(Ab, + (1 - A)b,)‘X2=A log biX+ (1 — A )log SX (16-8) 
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两 边 同 取 数 学 期 望 可 以 推出 W(b, 下 ) 是 关于 b 的 止 函 数 。 最 后 , 为 了 证 明 W* (PF) BRP F øh 
函数 , 假设 F AF, 为 股市 中 的 两 个 分 布 , 并 令 b (Fi) 和 b”*(F;) 分 别 是 对 应 于 两 个 分 布 的 最 优 
RAAE. A b* (AF, 十 (1 一 和 A)F,) 为 对 应 于 AF, + (1-4) F, 的 对 数 最 优 投 资 组 合 , 那么 利用 W 
(b, FF F 的 线性 性 , 我 们 可 得 
W* (AF, + (1-A)F,) 
= W(b* (AF, + (1—-A)F>), AF, + (1- A) F)) (16-9) 
= AW(b* (AF, + (1-A)F2), Fi) 
+(1-A)W(b* (AF, + (1 -A) Fp), F2) 
<AW(b* (FI), FD) +(1—a) W* (b* (F2), F2) f (16-10) 
因为 b* (Fi) 和 jb*(F2) 分 别 使 得 W(b, Fi) 和 W(b,F,) 达 到 最 大 值 。 口 
引 理 16.1.2 关于 某 个 分 布 的 全 体 对 数 最 优 投资 组 合 构成 的 集合 是 凸 集 。 
证 明 : Sb Abs 是 两 个 对 数 最 优 投资 组 合 , 即 W(b,.F)=W(b,F)=W"(F). H W(b, 
下 ) 的 四 性 可 以 推出 
W(Ab, + (1-A) by, F)>AW(b,F)+(1-12)W(b,F)=W*(F) | (16-11) 
也 就 是 说 , Ab + (1- 1)b 还 是 一 个 对 数 最 优 投资 组 合 。 口 
在 下 一 节 中 , 我 们 将 利用 这 些 性 质 来 刻画 对 数 最 优 投资 组 合 。 


16.2 ”对 数 最 优 投资 组 合 的 库 思 一 塔 克 特 征 


$B = lpe Reb, 50, X h = 1| 表示 所 有 尤 许 的 投资 组 合集 。 确 定 出 达到 W (PNH 


bb 为止 函数 Wb, FF) 在 凸 集 B5 上 的 最 大 化 问题 。 这 样 的 最 大 值 可 能 落 在 边界 上 。 因 此 ,可 以 直接 
使 用 标准 的 库 恩 一 塔 克 条 件 来 刻画 最 大 值 。 但 我 们 还 是 选择 从 源头 出 发 来 推导 出 这 些 条 件 。 
定理 16.2.1 一 个 股票 市 场 处 ~ 下 的 对 数 最 优 投 资 组 合 b* (即使 得 增长 率 Wb, FRANK 
大 值 的 投资 组 合 ) 满 足下 面 的 充 要 条 件 : 
( X; Kz 4b} >0 
b’'x/|<1 467 =0 
证 明 : 由 于 增长 率 W(b) = E(lnb'X) 是 b 的 凹 函数 , 其 中 b 的 取 值 范围 为 所 有 投资 组 合 形成 
的 单纯 形 。 由 此 可 知 , b 是 对 数 最 优 的 当 且 仅 当 W(' ) 沿 着 从 b 到 任意 其 他 投资 组 合 b 方 向 上 
的 方向 导数 是 非 正 的 。 于 是 , 对 于 0 委 ) 和 1, $b = (1-A)b* + Ab, 我 们 可 得 


<0, beB (16-13) 
A=0+ 





(16-12) 





. d 
ga (bx? 
这 些 条 件 最 终 简化 成 式 (16- 12)， 这 是 由 于 W(b,) 在 2 = 0+ 处 的 单 边 导数 为 
dE) 











nf, (=a) b eX + Ab x 

lim ME (In| OX )) (16-14) 
elt 1 bx _ 

=E (lim yIn(1+a( srry 1))) (16-15) 
_p{DX)\_ 

-E(X 1 (16-16) 


式 中 极限 与 期 望 的 次 序 可 交换 是 由 控制 收敛 定理 [39] 保 证 的 。 从 而 , 式 (16-13) 简 化 为 





E 
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EA) -1<0 (16-17) 
对 所 有 b€ 8 成 立 。 MRM b 到 b* HARA WHS b 端 在 单纯 形 呈 中 延伸 ,那么 W(b;) 在 A=0 
点 具有 双边 导数 且 导 数 为 0, 于 是 , 式 (16-17) 变 成 等 式 。 如果 不 然 , 式 (16-17) 只 能 取 不 等 式 。 

PER - 塔 克 条 件 只 要 在 单纯 形 好 的 所 有 端点 成 立 ,就 能 推出 所 有 投资 组 合 在 整个 单纯 形 上 成 
立 , 这 是 因为 E(b'X/b*'X) 关 于 b 是 线性 的 。 另 外 ,从 第 j SiR b:b,=1,6,=0(i Aj) Bl b* 的 
线段 可 以 朝 b* 端 在 单纯 形 中 延伸 当 且 仅 当 b>0。 于 是 , 刻画 对 数 最 优 的 b” 的 库 因 一 塔 克 条 件 
等 价 于 如 下 的 充 要 条 件 : 





(去 : H “or >o (16-18) 口 


Ele xli<1 Yar =0 
由 该 定理 , 立即 可 以 得 到 几 个 推论 , 其 中 一 个 有 用 的 等 价 关系 表述 为 如 下 定理 。 
定理 16.2.2 设 S* =b"'X 是 对 应 于 对 数 最 优 投资 组 合 b* 的 相对 收益 , 令 Sb 名 是 对 应 
于 任意 投资 组 合唱 的 随机 相对 收益 ， 那 么 








Ens<0 对 所 有 的 S SE J< for all S (16-19) 
证 明 : 对 于 对 数 最 优 投资 组 合 b* , 由 定理 16.2.1 可 知 , 对 任意 i, 有 
X; 
e(S4)<1 (16-20) 
上 式 两 边 同 乘 5b,, 并 且 关 于 i 求 和 , 可 得 到 
> bE (< Ds b; =1 (16-21) 
等 价 于 
bx noS 
Ey Ege (16-22) 
其 道 可 以 由 Jensen 不 等 式 得 出 , 因为 
Elog S<logE SŠ <logl =0 (16-23) 


渐 近 增长 率 促 使 我 们 考虑 期 望 对 数 的 最 大 化 。 而 我 们 刚 讲 过 的 对 数 最 优 投资 组 合 不 仅 使 得 
渐 近 增长 率 最 大 化 , 也 使 每 天 相应 的 期 望 相对 收益 比值 EC S/S") “eK”. AAA RRR 
论 最 优化 的 观点 来 看 , 我 们 还 需要 讨论 对 数 最 优 投资 组 合 的 短期 最 优 性 。 

对 数 最 优 投 资 组 合 的 库 恩 -- 塔 克 特 征 的 另 一 个 推论 是 : 如 果 采 用 对 数 最 优 投资 组 合 策略 , 那 
么 对 于 每 只 股票 的 投资 , 所 获得 资金 的 比例 的 期 望 不 会 逐 天 变化 。 具 体 地 说 , 我 们 考虑 第 一 天 收 
盘 时 的 所 有 股票 。 假 如 资金 的 初始 分 配 为 b* , 那么 当天 收盘 后 , 第 i 只 股票 的 相对 收益 与 整个 
投资 组 合 的 相对 收益 的 比例 为 6;X;/(b" ‘X), 其 期 望 为 
b*X, X; 
bx b*'X 
因此 , 第 i 只 股票 当天 收盘 后 的 相对 收益 占 整 个 投资 组 合 的 相对 收益 的 比例 的 数学 期 望 与 当天 开 
盘 时 投资 该 股 的 资金 比例 相同 。 这 是 Kelly 按 比 例 博 弈 的 翻版 , 即 , 一 旦 选 定 按 比例 进行 投资 组 
合 , 那么 在 随后 的 整个 投资 期 内 , 在 期 望 意义 下 , 该 投资 比例 保持 不 变 。 


16.3 ”对 数 最 优 投资 组 合 的 渐 近 最 优 性 
在 16.2 节 中 引 和 人 了 对 数 最 优 投资 组 合 的 概念 , 并 根据 重复 独立 的 股票 市 场 中 连续 投资 的 长 





E b*E =b? (16-24) 
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期 行为 解释 了 引入 这 个 概念 的 理由 。 本 节 我 们 继续 拓展 这 个 思路 并 将 证 明 : RR 
投资 组 合 策略 的 投资 者 比 按 任何 因果 投资 策略 的 投资 者 做 得 好 的 概率 为 1。 

首先 考虑 一 个 独立 同 分 布 的 股票 市 场 ， 即 Xi ,X,… ,和 为 独立 同 分 布 且 服从 F(x) 的 股票 向 
量 序列 。 $ 


S, = = [[ ux (16-25) 
表示 某 投资 者 第 ”个 交易 日 收盘 后 的 相对 收益 ， 其 中 b 为 该 投资 者 第 ; 天 的 投资 组 合 策略 。 再 令 
W* = maxW(b,F) = max E log b'X (16-26) 


为 最 大 增长 率 , 并 用 b 表示 达到 最 大 增长 率 的 投资 组 合 。 我 们 假设 所 有 投资 组 合 b; 只 是 因果 地 
依赖 于 过 去 ， 而 与 股票 市 场 未 来 的 市 值 独立 。 

定义 ”一 个 盲目 的 (nonanticipating) 或 者 因果 的 (causal) 投 资 组 合 策略 是 一 列 映射 b RGD 
>B, 其 中 5b, (x ,… ,x;-1) 解 释 为 第 i 个 交易 日 的 投资 组 合 策略 。 

HW 的 定义 可 以 直接 得 出 ;对 数 最 优 投 资 组合 使 得 最 终 资 金 的 对 数 的 数学 期 望 达到 最 大 。 
我 们 将 此 叙述 于 如 下 的 引 理 中 。 

引 理 16.3.1 设 S 为 在 独立 同 分 布 股票 市 场 中 采用 对 数 最 优 投资 组 合 策略 b ,nn 个 交易 
日 后 的 相对 收益 ，S, 为 采用 因果 投资 组 合 策略 b; 所 对 应 的 相对 收益 ,那么 


E logS* = nW* SE logS, (16-27) 
证 明 ; | 

„max, E logS, = max, E 2, log WX; (16-28) 

= L vo Da FE log bi (Xi , X,,*… ,X,_1)X; (16-29) 

= DE log b"*X; (16-30) 

= nW* (16-31) 

可 见 , 最 大 值 恰好 是 在 恒定 的 投资 组 合 策略 pb“ 之 下 达到 的 。 O 


至 此 , 已 经 证 明了 对 数 最 优 投 资 组 合 的 定义 的 两 个 简单 的 推论 : 即 满足 式 (16-12) 的 b’ 使 得 
对 数 资金 的 期 望 达到 最 大 值 ; 以 及 所 得 收益 S* 以 高 概率 在 一 阶 指数 下 等 于 2"” , 即 S* 二 2"w 。 

下 面 证 明 一 个 更 强 的 结论 , 它 表明 在 一 阶 指数 意义 下 , 对 于 来 自 股票 市 场 的 几乎 每 一 个 股票 
向 量 序列 ，S* 均 超过 任何 其 他 投资 者 所 能 获得 的 相对 收益 。 

定理 16.3.1( 对 数 最 优 投 资 组 合 的 渐 近 最 优 性 ) AX, XX, 为 独立 同 分 布 且 服 从 下 (x) 


的 股票 向 量 序列 。 令 = Jox, 其 中 b* 为 对 数 最 优 投 资 组 合 , 而 S。 = = [ux 为 其 他 因 
RAGS PAM 则 依 概率 1 有 
limsup Llog sso (16-32) 
证 明 : 由 库 恩 一 塔 克 条 件 以 及 S} 的 对 数 最 优 性 质 ， 可 推出 ， 
ES<1 (16-33) 


n 


从 而 , 由 马尔 可 夫 不 等 式 , 我 们 得 到 


S 
P(S > 6S7) =Pr( St >t, <4 (16-34) 


Sn 
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因此 ， 
S 
Pr( 3 log g > + loge, |<} (16-35) 
取 了 已 =22， 并 对 所 有 7 求 和 ， Bare? 
= /1 5 2 s , 
Xref 一 log S> ogn )j< 之 -= £ (16-36) 


此 时 , 再 利用 Borel-Cantelli 3128, 


工 Sh 
Pr( Tlog 


5 > 208 ,无 穷 多 个 成 立 ] =0 (16-37) 


这 意味 着 对 于 股市 的 几乎 每 个 股票 向 量 序列 ， 存 在 N, 使 得 当 n>N 时 , 均 有 荆 log 22 < 


2ogz 成 立 。 于 是 ， 
n 


lim sup -Llog S+ <0 依 概 率 1 (16-38) 


该 定理 证 明了 在 一 阶 指数 意义 下 , 对 数 最 优 投资 组 合 表现 相当 好 , 超过 任何 其 他 方式 的 投资 
组 合 。 


16.4 边 信息 与 增长 率 


我 们 在 第 6 章 中 曾经 证 明了 针对 赛马 X 的 边 信息 Y 可 以 用 来 提高 增长 率 (通过 互信 息 IX; 
Y))。 接 下 来 将 该 结果 推广 到 股市 中 。 此 时 的 I(X;Y) 是 增长 率 的 上 界 , 仅 当 X 表示 赛马 时 等 号 
成 立 。 首 先 考 虑 当 我 们 轻信 了 一 个 错误 的 分 布 将 会 招致 增长 率 有 多 大 的 损失 。 

定理 16.4.1 RX MAD f(x), by 为 对 应 于 了 (xX) 的 对 数 最 优 投资 组 合 , 而 bs 为 对 应 于 另 
一 密度 函数 g(x) 的 对 数 最 优 投资 组 合 。 那么, 采用 by 替代 bs 所 带 来 的 增长 率 的 增 量 满足 如 下 不 
等 式 


AW = W(by,F)- W(b,, F)<D(fl g) (16-39) 
证 明 : 我 们 可 得 出 如 下 不 等 式 系列 
AW = | room bix 一 [rig bix (16-40) 
= froe ya (16-41) 
byx g(x) f(x) . 
= /de FD FOD (16-42) 
(x) 
= [fooie s Fx) + PUID (16-43) 
a bx g(x) 
log] x) IY + DU e) (16-44) 
= log| g(x) ka + D(f lg) (16-45) 
<log 1+ D(f ll g) (16-46) 
= D(f lg) (16-47) 


其 中 (a) 由 Jensen 不 等 式 导 出 ，(b) 由 库 恩 - 塔 克 条 件 以 及 be 关于 g 的 对 数 最 优 性 定义 





信息 论 与 投资 组 合理 论 353 








导出 。 口 
定理 16.4.2 由 边 信息 Y 所 带 来 的 增长 率 的 增 量 AW 满足 如 下 不 等 式 
AW<I(X; Y) (16-48) 
证 明 : 令 (X,Y) 服 从 分 布 F(x,y), 其 中 和 是 市 场 向 量 , 而 Y 是 相应 的 边 信息 。 当 已 知 边 信 
息 了 =y 时, 对 数 最 优 策略 投资 者 采用 关于 条 件 概率 分 布 f(x| Y= 3) 的 条 件 对 数 最 优 投资 组 合 
从 而 , 在 给 定 条 件 Y= y F, 利用 定理 16.4.1, 可 得 


AWy-y < D(x I Y = y) FG) = | FG Y= yog {dx (16-49) 
对 Y 的 所 有 可 能 取信 进行 平均 , 我们 可 得 


aw <| f(y] ray = yog HY ady (16-50) 
~ _ f(x| Y = y) fly) 
= | [O0 | Y = y)log nO FOJA (16-51) 
— £y) 
= f | Foe yoe Fe dxdy (16-52) 
= I(X;Y) (16-53) 
从 而 , 边 信 息 了 与 股票 市 场 X 之 间 的 互信 息 F(X;Y) 是 增长 率 的 增 量 的 上 界 。 E 


16.5 平稳 市 场 中 的 投资 
本 节 将 16 4 ERRATA RATTI SAR SRE a. 


X,X,X, ARLE, X50. RANTS AR RR 
Sistine. "Wib; 可 以 依赖 于 X, ,XX ,Xi -io S 
S, = - To ,X2 XX: (16-54) 
我 们 的 目标 是 让 ElogS,, 在 所 有 因果 投资 组 合 策略 集 ib (+ )1 上 达到 最 大 值 。 而 此 时 
max E logS, = > „a pax, E log MX (16-55) 
= DE log bX; (16-56) 


其 中 , b 是 在 已 知 股票 市 场 的 历史 数据 下 , X; 的 条 件 分 布 的 对 数 最 优 投资 组 合 , 换言之 , WR 
记 条 件 最 大 值 为 
max E[ logb'X; | (X: Xo" ,XX;-1) = (x, 2 ,Xi-1)] 


= W* (X; |x1 ,XX 1) (16-57) 
WW bi (x ,%,… ,xX;_1) 是 达到 上 述 条 件 最 大 值 时 的 投资 组 合 。 关 于 过 去 取 期 望 , 我 们 记 
W" (XK, | Xi ,X,,.… ,X;_1) =EmaxE [log b XXX ，… X-a] (16-58) 


称 为 条 件 增长 率 , 式 中 的 最 大 值 函 数 是 取 记 所 有 定义 在 X,X,,…,X;-1 上 的 投资 组 合 b 的 投资 组 
合 价值 函数 。 于 是 ,如 果 在 每 一 阶段 中 均 采 取 条 件 对 数 最 优 投资 组 合 策略 , 那么 最 高 的 期 望 对 数 
回报 率 是 可 以 实现 的 。 令 


其 中 最 大 值 取 自 所 有 因果 投资 组 合 策略 。 此 时 ,由 lgs? = yiog b X, ,我 们 可 以 得 到 如 下 关 
于 W* 的 链 式 法 则 : 


W" (Xi, X237 X,) =, max E logs, ` (16-59) 


622 





CN 
N 
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W* (XiXe Ki) = DW’ (XXX 1) (16-60) 
i=} 


该 链 式 法 则 在 形式 上 与 H 的 链 式 法 则 完全 一 致 。 在 某 些 方面 ，W 的 确 是 互 的 对 偶 。 特 别 
地 , 条 件 作 用 使 At), 而 使 W 增加 。 我 们 接 下 来 定义 关于 时 间 依 赖 的 随机 过 程 的 粹 率 。 
定义 ”如 果 如 下 极限 存在 ， 





Wi = lim™ X1: Xa ) (16-61) 


n 
MAR W% 为 增长 率 。 
定理 16.5.1 对 于 平稳 市 场 , 增长 率 存 在 且 等 于 
Wo = lim W* (X, [Xi , Xo, ,X, -1) (16-62) 
证 明 : 由 平稳 性 可 知 ，W* (X, |Xi ,Xs,… ,XX,_1) 关 于 n 是 非 减 函数 ,从 而 极限 必然 存在 , 但 
有 可 能 为 无 穷 大 。 由 于 
W* (X,X,,…,X,) 


n 





= 1 2 W(X; | X , Xo, ,KX;_1) (16-63) 
i=i 


由 Ceséro 均值 定理 (定理 4.2.3) 可 以 推出 式 左 边 的 极限 等 于 右边 通 项 的 极限 。 因此 ，W% 存 在 , 且 
Wi = im MMe Xn) L 
我 们 接 下 来 可 以 将 渐 近 最 优 性 推广 到 平稳 市 场 , 见 如 下 的 定理 。 
定理 16.5.2 对 任意 随机 过 程 |X,} AER? K(X UAKRHHKRKREMS, 而 S* 
为 对 应 的 相对 收益 。 令 S, 为 对 应 菜 个 因果 投资 组 合 策略 b;(Xi~!) 的 相对 收益 。 那 么 , 关于 由 过 
去 的 Xi Xa X, 生成 的 5 代数 序列 ， 比值 S,/S* RR ELR, At, 存在 一 个 随机 变量 
V, 使 得 





lim W* (X, 1X1, X2, Xp -1) (16-64)(] 


nœ 




















Sey - 依 概率 1 (16-65) 
EV<1 (16-66) 
且 
S, 1 
Pr sup græt < (16-67) 
证 明 ; S,/S* 为 正 上 著 是 因为 使 用 关于 条 件 对 数 最 优 投资 组 合 的 库 恩 一 塔 克 条 件 可 得 
Spe XO) | pf (Bra)S,(X") 
Eee e xX | (16-68) 
SCX") 区 Xi i 
SS) hem x] (16-69) 
S,(X") i 
Ss O) (16-70) 
于 是 , FROG REA S,/S* 的 极限 存在 , 记 为 V, 那么 EVE(So/S0 )=1。 最 后 ， 利用 
关于 正 鞭 的 科 尔 莫 戈 罗 夫 不 等 式 , 我 们 可 以 得 到 关于 sup(S,/S, ) 的 结果 。 口 


我 们 注意 式 (16-70) 解 释 了 S 的 竞争 最 优 性 的 强度 。 HEW, SM) AMAA 
S? (XH 10 倍 的 概率 不 超过 1/10。 对 于 平稳 且 遍 历 的 股市 ， 我 们 也 可 以 将 渐 近 均 分 性 质 推 广 
后 用 来 证 明 下 面 的 定理 : 

定理 16.5.3( 股 票 市 场 的 AEP) It X,X,X, 是 一 个 平稳 遍历 的 向 量 值 随机 过 程 。 令 
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Si 为 采用 条 件 对 数 最 优 策略 在 时 刻 n 所 获得 的 相对 收益 ， 即 


= TT (XX ,XX (16-71) 

那么 , 依 概率 1 有 上 
Logs > We (16-72) 
TERA: 定理 的 证 明 过 程 设 及 16.8 节 中 将 证 明 AEP 的 “三 明治 ”[20] 方 法 生成 。 此 处 暂 不 给 出 
详细 的 证 明 (Algoet and Cover[21])。 口 


在 结束 本 节 之 前 , 再 次 考虑 赛马 的 例子 。 赛 马 是 股票 市 场 的 一 个 特殊 情形 ,只 要 认定 该 市 场 
中 的 m 只 股票 恰好 对 应 着 m 匹 赛马 。 当 比赛 结束 时 , 第 i 匹 赛马 所 对 应 的 马 票 要 人 么 为 0 要 么 为 
o, KP, o 为 买 第 ; 匹 赛马 的 机 会 收益 率 。 于 是 , X 的 非 0 分 量 总 是 对 应 于 获胜 的 赛马 。 

在 这 种 情况 下 ,对 数 最 优 投资 组 合 是 按 比例 下 注 , 此 乃 著 名 的 Kelly 博弈 策略 ( 即 ,5b? =p), 
如 果 机 会 收益 是 均匀 公平 的 ( 即 ,o;= m, Vi ), 那么 我 们 有 


W* =logm — H(X) (16-73) 
假如 有 一 个 相关 的 赛马 序列 , 那么 最 优 投资 组 合 是 按照 条 件 比例 博弈 。 如 果 这 样 ， 渐 近 增 长 率 为 
W3 = logm — H(X) (16-74) 

其 中 , RREN, HX) = lim H(X, X2 X,)o MET, RER 16.5.3 保证 
Seon (16-75) 


这 与 第 6 章 中 的 结果 一 致 。 
16.6 ”对 数 最 优 投资 组 合 的 竞争 最 优 性 


是 否 对 数 最 优 投资 组 合 在 指定 的 有 限时 刻 n 总 是 比 其 他 的 投资 组 合 优越 ? 作为 库 恩 - 塔 克 
条 件 的 一 个 直接 推论 , 我 们 有 | 


El (16-76) 


从 而 ,由 马尔 可 夫 不 等 式 可 知 
Pr(S, >S? <+ (16-77) 


该 结果 类 似 于 第 5 章 中 已 经 导出 的 关于 香农 码 的 竞争 最 优 性 。 
通过 例子 可 以 发 现 , 对 于 使 得 S, > S; 成 立 的 概率 的 上 界 , 我 们 不 可 能 再 做 出 更 好 的 估计 。 
例如 , 假设 股票 市 场 只 有 丙种 股票 , 并 且 只 有 两 种 可 能 结果 ， 


1 
oo 依 概 率 1 (16-78) 
(1,0) 依 概率 c 

在 该 市 场 中 , 对 数 最 优 投资 组 合 的 方案 应 该 是 将 所 有 资金 完全 投入 到 第 一 只 股票 中 (容易 验证 ， 
投资 组 合 b= (1,0) 满 足 库 恩 一 塔 克 条 件 )。 (HE, 如 果 投 资 者 将 其 所 有 资金 全 部 投入 到 第 二 只 股 
HRA, 那么 有 1-e 的 概率 赚 更 多 的 钱 。 从 而 , 对 数 最 优 投资 组 合 策略 不 会 以 很 高 的 概率 领先 
于 其 他 投资 组 合 策略 。 

由 于 实际 中 的 确 存 在 着 许多 类 似 于 上 述 的 例子 的 情形 ,在 绝 大 多 数 时 间 ， 其 他 投资 策略 可 能 
以 微弱 的 优势 领先 对 数 最 优 投 资 策略 。 因 此, 证 明 对 数 最 优 策略 投资 者 至 少 会 以 50% 的 概率 领 
先 于 其 他 策略 的 问题 也 无 法 实现 。 但 是 ,如 果 我 们 允许 每 个 投资 者 加 入 额外 的 均 久 随机 项 ( 它 的 


ON 
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作用 就 是 为 了 减少 由 于 相对 收益 中 的 微弱 差异 而 引起 的 效应 ), 那么 可 以 得 到 一 个 接近 的 结果 。 


定理 16.6.1( 竞 争 最 优 性 ) KS 是 按照 对 数 最 优 投资 组 合 策略 在 股票 市 场 和 上 到 一 个 投资 

期 的 期 末 时 的 相对 收益 , 而 S 是 同期 的 按照 其 他 投资 组 合 策略 得 到 的 相对 收益 。 假设 U* 是 [0,2] 

上 与 义 独 立 分 布 的 随机 变量 ,，V 是 另 一 个 与 和 和 UU" 独立 的 随机 变量 , 且 满 足 V 之 0,EV=1。 
那么 

Pr(V SU" S*)<4 (16-79) 

注释 ”此 处 的 U* 和 V 为 对 初始 资金 的 “均匀 ”随机 化 。 从 初始 资金 So= 工 转变 成 为 “ 均 勾 ” 

资金 U* 在 实际 操作 中 ,只 要 游戏 规则 “公平 "就 可 以 实现 。 这 种 随机 化 处 理 的 效果 就 是 将 比值 


S/S* 偏差 很 小 的 部 分 消除 , 仅 保 留 S/S* 的 偏差 很 显著 的 项 , 因为 它们 才能 影响 获胜 概率 。 
证 明 : 我 们 有 





PV S2U"S*)=Pr( Si>U" | (16-80) 
= Pr(W>U* ) (16-81) 

其 中 W= 2 全 是 非 负 随机 变量 且 均 值 为 
EW=E(V)E(2!)<1 (16-82) 


这 是 由 V 与 X 的 独立 性 以 及 库 恩 一 塔 克 条 件 得 到 的 。 令 下 为 W 的 分 布 函数 , 由 于 U* 是 [0,2] 
上 的 均匀 分 布 , 可 得 








Pr(W > U") = | pcw > w) fu» (w)dw (16-83) 
= ferw >w) Law (16-84) 
- j 1- Fle) dw (16-85) 
2 1 — F(w) 

<f Ae gw (16-86) 
= Jew (16-87) 
<4 (16-88) 

可 利用 已 经 证 明 过 的 如 下 结论 (由 分 部 积分 法 得 到 ) 而 得 到 ， 即 对 于 一 个 正 值 随 机 变量 W, 有 
EW = Fa _ F(w))dw . (16-89) 

因此 , 我 们 有 

Pr( VS>U* S*) = Pr WSU" <> (16-90) 0 


定理 16.6.1 提供 了 采用 对 数 最 优 投资 组 合 的 一 个 短期 效果 评价 。 如 果 投 资 者 的 惟一 目标 是 
在 股票 市 场 每 天 收盘 后 领先 于 他 的 对 手 , 且 均 匀 随 机 化 是 允许 的 , 那么 , 定理 16.6.1 告诉 我 们 : 
投资 者 首先 应 该 将 他 的 初始 资金 转变 为 服从 [0,2] 上 均匀 分 布 的 资金 , 然后 使 用 对 数 最 优 投资 组 
合 策略 进行 投资 。 这 是 使 用 博弈 论 方法 解决 股市 中 的 竞争 博弈 问题 的 一 个 例子 。 


16.7 万 能 投资 组 合 
在 16.1 节 中 开发 的 对 数 最 优 投资 组 合 策略 依赖 于 股票 向 量 的 分 布 已 知 的 假设 , 基于 该 分 布 
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才能 计算 出 最 优 投 资 组 合 b* 。 但 在 实际 中 ,往往 不 知 如 何 得 到 该 分 布 。 本 节 我 们 介绍 一 种 因果 
投资 组 合 , 其 对 于 单个 的 序列 有 很 好 的 表现 。 于 是 , 我 们 除了 必须 假设 股票 市 场 可 以 看 作 是 一 个 
向 量 列 x ,%,… ,ER* 之 外 , 不 再 作 任 何 统计 假设 了 。 其 中 ,x; 表示 全 部 股票 第 i 天 的 相对 价格 
构成 的 向 量 , 而 其 分 量 zy 表示 第 ; 只 股票 第 i 天 的 相对 价格 。 我 们 首先 针对 有 限 长 度 的 情形 ， 
即 , 只 依据 已 经 发 生 的 n 个 向 量 x ,%，,… ,x,。 然 后 再 推广 到 无 穷 情 形 。 

已 知 股票 市 场 的 股票 序列 之 后 , 我 们 到 底 能 够 做 得 多 好 ? 可 实现 的 最 大 的 增长 率 当 属 由 事 
后 诸葛 亮 式 的 恒定 持仓 比例 投资 组 合 策略 得 出 的 增长 率 。 此 策略 是 基于 已 知 的 股票 市 场 向 量 构 
成 的 序列 的 条 件 下 的 最 佳 恒 定 持仓 比例 投资 组 合 。 注 意 , 恒定 持仓 比例 投资 组 合 是 可 以 与 服从 
已 知 分 布 的 独立 同 分 布 的 股市 序列 的 策略 抗衡 的 佼佼 者 。 所 以 , 考虑 这 样 的 投资 组 合 策略 是 顺 
理 成 章 的 。 

我 们 假设 有 一 揽 子 共同 基金 , 其 中 每 只 共同 基金 都 执行 恒定 持仓 比例 投资 组 合 策略 。 我 们 
的 县 的 是 实现 对 这 些 基金 的 最 佳 管理 。 本 节 我 们 将 证 明 , 即使 在 没有 股市 向 基 分 布 的 先 验 知识 
的 情况 下 , 我 们 也 能 够 凭借 最 佳 恒 定 持仓 比例 投资 组 合 策略 做 得 很 好 。 

第 一 种 手段 是 将 资金 分 散 给 所 管辖 的 所 有 基金 经 理 , 让 每 个 基金 经 理 遵 循 各 自 独特 的 恒定 
持仓 比例 投资 组 合 策略 。 由 于 每 个 基金 经 理 都 想 将 业绩 做 得 比 其 他 人 好 , 因此 n 个 交易 日 之 后 


的 资金 将 达到 本 期 内 的 最 大 。 我 们 将 证 明 , 在 不 计较 折扣 因子 n 的 意义 下 , 我 们 的 收益 可 
以 达到 最 佳 的 基金 经 理 的 业绩 。 这 是 我 们 对 于 无 穷 范围 的 万 能 投资 组 合 策略 讨论 的 
基础 。 

第 二 种 手段 是 将 该 问题 视 为 一 个 对 抗 恶意 竞争 对 手 的 博弈 。 其 中 , 人 允许 该 竞争 对 手 挑选 股 
市 向 量 序列 。 我 们 定义 一 个 因果 (即兴 ) 投 资 组 合 策略 (x;-1,… x), 其 仅 依赖 于 股市 序列 的 历 
史记 录 。 此 时 , 对 手 凭借 对 策略 让 (x;-1,… ,xi) 的 了 解 , 选择 一 个 向 量 列 x; 来 构造 一 个 投资 策略 ， 
其 结果 与 最 佳 恒定 持仓 比例 该 方法 的 表现 相 比 要 多 粳 就 多 糟 。 令 b" (x” ) 为 关于 股市 序列 x 的 最 
佳 恒定 持仓 比例 组 合 。 ER, b (x") 仅 依赖 于 该 序列 的 经 验 分 布 , 并 没有 要 求 向 量 必须 出 现 。 当 
第 n 个 交易 日 收盘 时 , 人 恒定 持仓 比例 组 合 b 策 略 对 应 的 相对 收益 为 : 


S,(b.x") = [bx (16-91) 
而 最 佳 的 恒定 持仓 比例 投资 组 合 b* (x) 的 获得 的 相对 收益 为 
S; (x") = maxl[wx (16-92) 
然而 , 该 因果 投资 组 合 策略 6.(xi-1) 获 得 的 相对 收益 仅 为 
S(x") = Tlie), (16-93) 


我 们 的 目标 是 用 比值 S,/S* PRB — 7h SRE ASR BC - ) = (By Bp (my) B,C") ) ,使 
得 在 最 糟糕 的 情况 下 的 表现 也 不 错 。 为 此 , 我 们 将 寻找 最 优 的 万 能 投资 组 合 策略 , 并且 证 明 该 策 
略 对 于 任何 股市 序列 上 的 相对 收益 S,, 与 最 佳 恒定 持仓 比例 组 合 策略 在 该 序列 上 的 相对 收益 S。 [63 


之 比例 因子 V, <- 号 !。 该 策略 依赖 于 该 博弈 的 期 限 no WA ,我 们 给 出 某 些 无 限期 的 结果 , 几 
乎 也 与 有 限期 情形 -一样 , 在 最 差 情 形 也 有 此 相同 的 渐 近 表现 。 
16.7.1 有 限期 万 能 投资 组 合 

我 们 首先 分 析 投资 期 为 ”个 交易 日 的 股市 , 其 中 n 是 事先 知道 的 。 我 们 试图 找到 一 种 投资 
组 合 策略 使 得 它 能 够 跑 赢 ”只 股票 组 成 的 股市 大 盘 。 主 要 结果 可 以 描述 为 如 下 定理 。 
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定理 16.7.1 对 于 一 个 长 度 为 n，, 投资 品种 数量 为 m 的 股市 序列 x =x, x, KER, 
A S*(X") 与 S,(X") 分 别 为 由 基于 X" 的 最 佳 恒 定 持仓 比例 投资 组 合 策略 与 因果 投资 组 合 策略 达 
到 的 相对 收益 有 i(.) 关 于 X"， 那 么 





Sax”) 
paxmin “Ss (yay V” (16-94) 
其 中 ， 
n tay] 
v. = | 2 | jz (16-95) 
atta an Nis N23" s Nm 


由 斯 特 林 近似 公式 , 我 们 可 以 得 到 V, 与 na- 同 阶 。 因 此 , 关于 最 糟糕 情形 的 万 能 投资 组 合 的 
增长 率 与 关于 该 序列 最 佳 恒定 持仓 比例 投资 组 合 策略 的 增长 率 之 比值 至 多 相差 一 个 多 项 式 因 子 。 而 
万 能 投资 组 合 的 相对 收益 的 增长 与 最 佳 恒 定 持仓 投资 组 合 的 比值 的 对 数 b 就 像 一 个 通用 信 源 编码 的 
宛 余 。( 参 见 Shtarkov[ 4%], 其 中 ,log V,, 表示 数据 压缩 中 单个 序列 的 最 小 最 大 元 余 。) 

我 们 首先 以 n =1 为 例 解释 我 们 的 主要 结果 。 考 虑 一 天 只 有 两 只 股票 的 情形 。 令 x= (zl,zz) 
为 当日 的 股市 向 量 。 当 zi> zz 时 , 最 佳 投资 组 合 是 将 所 有 资金 买 成 第 1 只 股票 ; 当 x1< zz 时， 
最 佳 投资 组 合 是 将 所 有 资金 买 成 第 2 只 股票 ; 当 zi = zz 时 ,所 有 投资 组 合 等 同 。 

EPR, 假设 必须 事先 选择 一 个 投资 组 合 , 然后 对 手 基于 我 们 选 定 的 投资 组 合 选择 股市 序 
列 , 使 得 我 们 的 投资 组 合 与 最 好 的 投资 组 合 相 比 表现 得 一 败 涂 地 。 事 实 上 ， 当 我 们 的 投资 组 合 已 
知 时 ,只 要 让 我 们 投资 多 的 股票 的 权重 为 0 而 让 其 他 的 股票 的 权重 为 1, 对 手 可 以 让 我 们 彻底 套 
牢 。 于 是 , 我 们 的 最 佳 策略 当然 是 对 两 只 股票 取 相 同 的 权重 , 基于 这 个 投资 策略 , 我 们 所 得 的 增 
长 因子 至 少 应 该 是 最 佳 的 股票 的 增长 率 的 一 半 。 从 而 我 们 的 收益 至 少 是 最 佳 恒 定 持仓 比例 投资 
组 合 策略 的 收益 的 一 半 。 当 n=1 而 m=2 时 , 计算 出 等 式 (16-94) 中 的 V, =2 并 不 难 。 

但 是 , 该 结果 看 上 去 有 些 误导 ， 因为 它 明显 地 暗示 在 n 个 交易 日 的 投资 期 内 , 每 天 都 必须 采 
用 固定 平均 比例 的 投资 组 合 把 资金 平均 分 成 两 半 投 资 到 每 只 股票 上 。 如 果 我 们 的 对 手 每 天 都 选 
择 股 市 序列 为 第 一 只 为 1, 而 第 二 只 为 0, 那么 均匀 策略 最 终 相 对 收益 仅 为 1/2", 即 , 我 们 的 均匀 
投资 策略 最 终 相对 收益 仅 是 最 优 的 恒定 持仓 比例 投资 组 合 ( 即 每 天 将 全 部 资金 投入 第 一 只 股票 ) 
的 1/2"。 

该 定理 的 结果 显示 , 我 们 显然 可 以 做 得 更 好 。 这 主要 是 在 该 讨论 过 程 中 将 股市 向 量 序列 简 
化 为 极端 情形 , 每 天 只 让 其 中 的 一 只 股票 非 0。 如 果 确 信和 针对 这 样 的 序列 可 以 做 得 很 好 , 那么 我 
们 可 以 保证 对 于 任何 股票 向 量 序列 也 可 以 做 得 很 好 。 于 是 得 到 该 定理 的 临界 。 

在 证 明 该 定理 之 前 , 需要 先 给 出 如 下 引 理 。 

引 理 16.7.1 对 于 任意 pipro ,pm 之 0 与 q1,92，… ,qm 之 0， 





= > min . (16-96) 


证 明 : 令 7 为 使 式 (16-96) 的 右边 达到 最 小 的 ;并 假设 p>0( 如 果 y=0, 那么 引 理 显然 成 
立 )。 同 样 ,假设 "二 0, 那么 式 (16-96) 两 边 都 是 无 穷 大 , 那么 必然 其 他 所 有 q 也 全 为 0, 不 等 式 
显然 成 立 。 于 是 ,我 们 假设 gr>0, 则 
Pi 1+ » (pi/p1) 

I iŻl Pr 


p 

= 之 16-97 

Q 1+ > (q/q) ”gr ( ) 
il 





> 
i=l 
> 
i=l 
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成 立 , 由 于 
Pi~ Pr DPi~ gi 
gg py (16-98) 
对 于 所 有 的 i。 m 
首先 对 n= 1 的 情形 进行 讨论 。 第 一 天 收盘 时 ,资金 为 
S1(x) =b'x (16-99) 
Si (x) =b'x (16-100) 
并 且 
S(x) _ Dbz; . b; 
Six) Box |b, | (16-101) 





为 了 求解 max g min, 2, 很 自然 的 方式 是 : MR HRE, Wx e; KH e ER” 中 的 第 ; 个 从 
标 轴 的 单位 向 量 。 这 样 ， 问 题 转化 为 投资 者 如 何 选取 ,使 得 该 最 小 值 生 达到 最 大 。 选 取 有 = 
(E, t ) 必 定 是 可 以 达到 的 。 


为 了 实现 这 一 点 , 重要 的 是 
S, (x”) TT bx; 














S,(x") 一 Tw. (16-102) 
可 以 改写 为 如 下 的 比值 形式 
S,(x") _ bx’ 
S,(x") > bx (16-103) 


KP b, b,x ECR”, All, 恒定 持仓 比例 投资 组 合 b 的 m TRAYS REU OD OR brr 的 乘 
积 形式 。 我 们 的 目的 是 找到 万 能 的 间 , 使 得 一 致 地 逼近 恒定 持仓 比例 投资 组 合 b。 
现在 我 们 可 以 证 明 该 主要 定理 (定理 16.7.1)。 
定理 16.7.1 的 证 明 : 仅 对 m=2 的 情形 证 明 该 定理 。 而 对 于 m >2 的 情形 可 以 照搬 。 记 这 
两 只 股票 分 别 为 1 与 2。 其 关键 的 思路 是 将 时 刻 ”的 相对 收益 表示 为 
S,(x") = TĪ wx, (16-104) 
由 和 的 乘积 形式 转换 成 为 乘积 之 和 。 和 式 中 的 每 一 项 对 应 着 在 时 刻 i 第 一 只 或 者 第 二 只 股票 的 
股价 乘 以 比例 已; 或 者 5 的 序列 , 其 中 , 该 比例 已 ;或 者 2 是 在 时 刻 i 投资 策略 实施 到 股票 1 或 者 
股票 2 的 比例 。 因 此 ,我们 可 以 将 相对 收益 S, 视 为 关于 由 股票 1 和 股票 2 组 成 的 所 有 2” 个 可 能 
的 n 长 度 序列 的 求 和 ， 其 中 每 个 n 长 度 序列 理解 为 投资 组 合 比 例 乘 以 相应 股价 的 联 乘 : 
S,(x") = DU TL oz = > TI b; LI zs (16-105) 
Pelz i=l Je {aay i=1 i=l 


如 果 我 们 用 w(7” RAIA II b; ， 即 投资 在 序列 7” 上 的 全 部 的 资金 比例 之 和 , 再 令 


x(j") = TI z, (16-106) 


为 对 应 于 该 序列 的 回报 , 那么 我 们 有 
S(x) = 2) wi") c(i") (16-107) 


了 E11,2|” 
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分 别 对 于 最 佳 恒定 持仓 比例 投资 组 合 与 万 能 投资 组 合 采用 上 述 表 示 , 那么 , 我 们 得 到 
SO) pty G20” 
Si (x") toy w7 Gi") xj") 
其 中 w(7”) 是 按照 万 能 因果 策略 投资 在 序列 )* 上 的 资金 总 量 , 而 w* (7") 是 按照 最 佳 恒 定 持仓 比 
例 策略 投资 在 序列 r 上 的 资金 总 量 。 此 时 ,应 用 引 理 16.7.1, 我 们 有 





(16-108) 





SOK) 、 Wz) _ wi") 
St (xt) ee GG) = mn w GO (16-109) 


于 是 , BH S/S? 最 大 化 的 问题 简化 为 确定 万 能 策略 投资 在 一 系列 股票 上 的 资金 比例 是 否 一 
致 逼近 策略 b* 的 比例 。 至 此 已 经 能 够 明确 了 ，S, 的 公式 表示 使 得 具有 两 只 股票 的 ”期 的 股票 市 
场 简 化 为 一 个 特殊 的 具有 2" 只 股票 的 1 期 的 市 场 。 我 们 将 w RERARE j, 得 到 的 回报 
是 z( 闫 )， 而 总 的 相对 收益 S, 为 Dwal") 。 
我 们 首先 计算 关于 最 佳 恒 定 持仓 比例 投资 组 合 b 的 权重 w* (j) Hh, 观察 一 个 恒定 持 
仓 比例 组 合 b, 这 将 导出 
wlj”) = TI a; = (1 -5)"* (16-110) 


此 处 & ELBA E RES 7" P1 BRAK. TE, wi" WK ko HER PS 7” E, MO 
进行 差分 , 可 以 发 现 关 于 的 最 大 值 问题 变 成 


w” (7")= max bY(1— 6)" (16-111) 
on as 
这 是 可 达到 的 , 只 要 取 
b = (£,2=*) (16-113) 
n n 


PERIL Dw" (77) > 1, 这 反映 出 :“ 投 资 "到 产 上 的 资金 量 的 选取 是 事后 诸葛 亮 式 的 。 于 是 在 不 
考虑 事后 诸葛 亮 的 投资 心态 , 他 的 资金 配置 w*( 疡 ) 求 和 应 该 等 于 1。 因 果 投 资 者 没有 那么 高 的 
奢望 。 那 么 ,因果 投资 者 如 何 依据 所 有 可 能 的 序列 和 事后 诸葛 决策 zw ” ( 产 ) 来 选取 初始 投资 
w(j"), Uw") =1 RP AC? SRE, 选择 WS w OREB. RH, 即使 在 最 坏 的 情 
形 之 下 , 比值 wi") w BERK. HTAR, 我 们 定义 V 如 下 


- SHAE (16-115) 
并 令 
wor =v le) asno 


BR, wi) BEER 2" 只 股票 序列 的 合法 资金 分 配 ( 即 , w) 且 Dol") = 1 )。 所 以 ， 


V, 是 使 也 ( 闫 ) 成 为 概率 密度 函数 的 规范 化 因子 。 另外 , 再 由 式 (16-109) 与 式 (16-113), 对 于 所 
有 序列 x", 
S$.) in WD (16-117) 


Si (x) ww" (7") 
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vat) (Ay 








=min BRT bt) (16-118) 
>V, (16-119) 

其 中 式 (16-117) 由 式 (16-109) 推 出 , 而 式 (16-119) 由 式 (16-112) 推 出 。 从 而 , 我 们 有 
max min EL > n (16-120) 


于 是 , 我 们 证 明了 在 2” 只 长 度 为 n 的 可 能 股票 序列 的 一 个 投资 组 合 达到 了 相对 收益 $,(x"), 与 


最 佳 恒定 持仓 比例 组 合 策略 的 相对 收益 S* (x”) 之 比 为 因子 Vi =n". AT RRS 
明 , 还 需要 证 明 这 是 最 佳 可 能 。 也 就 是 说 , 任何 其 他 因果 投资 策略 bi(x-!1) 在 最 糟糕 的 情形 ( 即 ， 
对 于 最 差 选 择 x”) 都 不 会 超过 因子 V,。 为 了 证 明 这 一 点 , 我 们 构造 一 个 极端 股票 市 场 序列 集 并 
证 明 任 何 因果 投资 组 合 策略 至 少 关于 一 个 这 样 的 极端 序列 由 V, 控制 , 并 证 明 就 是 最 糟糕 情形 
的 界 。 

对 于 任何 G7 © 11,24", 我 们 定义 相应 的 极端 股票 市 场 向 量 序列 x*( 产 ) 如 下 


. J(1,0): 当 j=1 
TOET 当 ) -2 (16-121) 
令 @=(1,0)',@= (0,1)’ 为 标准 坐标 基 向 量 , 再 令 
KkK=|x(7):7E11,21" ,x =e; | (16-122) 


为 全 部 极端 序列 之 集 。 此 时 , 该 集合 的 元 素 共 计 2" 个。 并 且 对 于 每 条 这 样 的 序列 , 每 个 时 刻 只 
有 一 只 股票 具有 非 0 回报 ,而 投资 在 另 一 只 股票 的 资金 全 部 损失 。 因 此 , 关于 极端 序列 x"( 产 ) 的 
投资 到 第 n 期 收盘 时 的 相对 收益 正好 是 投资 在 股票 序列 站 ,j，,…,j, 上 的 相对 收益 的 乘积 。 即 


S,(x"G")) = [] b = w) o E, 也 可 以 将 其 看 作 是 在 长 度 为 ”的 序列 上 的 投资 , 且 回报 率 
为 0 或 1 方式 。 此 时 , 很 容易 看 出 对 于 任何 极端 序列 x EK, 有 





DUS, (x"(7")) = 1 (16-123) 
而 对 于 任何 极端 序列 x" i") CK, REED EE 0 1 IRA 
borgn) = (2 a) (16-124) 
其 中 , GS nj) PP 闫 中 出 现 1 的 次 数 。 此 时 , 到 第 ”期 收盘 时 的 相对 收益 是 
S% (x (j"))= (Be ian (ee? ee =P) (16- 125) 
因此 ,由 式 (16-126) 扒 出 
2 Si x") = v Xag) = A (16-126) 


xE 
此 时 , MEERA AJEA b; i ARRAMA aE S,(x”")( 如 同 式 (16-104) 所 定义 的 )， 
我 们 有 下 列 不 等 式 ， 











S (x") St") SG”) 
in 一 n to 16-127 
masia) S ,A sie) SiG) (16-127) 
XEK _ 


7 PEK » S, (x") 
xEK 


a 


nN 


36 
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二 WY 人 (16-129) 
S% (x" 
By Se") 
= V, (16-130) 
其 中 不 等 式 的 得 出 是 基于 最 小 值 必然 不 超过 均值 的 基本 事实 。 于 是 ， 
max min eC) 2 <V, (16-131) 


定理 中 给 出 的 策略 重心 着 落 在 所 有 长 度 为 ”的 序列 上 , 因此 依赖 于 n。 我 们 可 以 重新 按照 增 量 
来 构造 此 策略 ( 即 , 在 时 刻 1 用 买 人 股票 1 与 2 的 股票 量 来 刻画 )。 此 时 , 基于 在 时 刻 1 的 结果 , 决定 
时 刻 2 买 人 两 只 股票 的 数量 。 如 此 下 去 。 在 时 刻 i, 在 已 知 此 前 的 股票 向 量 序列 XO 的 条 件 下 , 通过 
算法 给 出 分 配 到 股票 1 的 资金 权重 &.:。 通 过 对 所 有 在 第 i 个 位 置 为 1 的 序列 7 求 和 如 下 
> w (ji 1) 2 Git) 
b; a(x) = =S IG (16-132) 


jEM 





其 中 
wlj) = È wlj") (16-133) 
是 从 天 开 始 投资 所 有 序列 产 的 权重 , 而 
(jit) = IL x, (16-134) 


是 投资 在 这 些 序列 上 的 回报 (其 定义 见 式 (16- 106))。 
V, 的 渐 近 性 研究 可 以 查阅 [401, 496], 对 于 m 种 资产 ， 其 近似 结果 为 


TY 一 (/2 六 T(m/2) Nx (16-135) 
特别 当 资 产 数 m =2 时 , 有 | 
Va J2 (16-136) 
以 及 
1 
— < V.< - 
2 了 (16-137) 


对 所 有 n 成 立 [400]。 从 而 , 对 于 m =2 只 股票 的 情形 , 由 式 (16-132) 给 出 的 因果 投资 策略 
(xi-!) 达 到 的 相对 收益 $, (zx") 对 于 任何 市 场 序列 x” 均 满 足 
§,(2") 1 


St (a")> >/nti (16-138) 





>V, > 


16.7.2 无 限期 万 能 投资 组 合 

我 们 将 使 用 不 同 投资 组 合 策略 的 加 权 来 刻画 无 限期 策略 。 正 如 前 面 叙 述 过 的 , 每 一 个 恒定 
持仓 比例 投资 组 合 b 可 以 看 成 是 一 个 共同 基金 按照 b 管理 m 只 股票 。 在 起 初 , 我 们 将 全 部 资金 
按照 分 布 x(b) 分 配 到 每 只 子 基 金 。 令 db 为 恒定 持仓 比例 投资 组 合 b 的 一 个 邻 域 , HS du(b) 为 
按照 该 邻 域 中 的 投资 组 合 所 投资 出 去 的 资金 总 量 。 


令 


S,(b,x") = 于 [bx (16-139) 
i=l 
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为 恒定 持仓 比例 投资 组 合 b 在 股票 序列 x* 上 产生 的 相对 收益 。 回 顾 前 面 所 讲 的 结论 
S} (x") = max S, (b,x”) (16-140) 
是 事后 诸葛 亮 式 的 最 佳 恒 定 持仓 比例 投资 组 合 的 相对 收益 。 
我 们 研究 如 下 定义 的 因果 投资 组 合 


| ,bS.(b,x!)dye(b) 











b; (x$) = - (16-141) 
J SiCh,x duo) 
我 们 注意 如 下 等 式 
| b'xi S; Cb, x >d (b) 
O X = (16-142) 
| ,Si(b,x )du(b) 
| SiniCbx) dpb) 
= (16-143) 
| ,SiCb,x ) dpb) 
于 是 , BORA Ox; 望远镜 我 们 看 到 基于 该 因果 投资 组 合 的 相对 收益 S$, (x” ) 为 
8,(x") = [TEx (16-144) 
= | era Sx 0da) (16-145) 


对 于 等 式 (16-145), 还 有 另外 一 种 解释 。du(b) 解 释 为 分 配给 投资 组 合 经 理 b 的 资金 总 量 ， 
那么 S(b,x" ) 则 解释 为 基金 经 理 遵 照 投 资 组 合 b 所 产生 的 增长 因子 , 于 是 本 投资 期 的 全 部 相对 收 
益 就 是 

S,(x") = [ sm)du(D) (16-146) 


此 时 , 6,1( 如 式 (16-141) 所 定义 的 ) 是 单个 投资 组 合 经 理 b HNA FE ALA 

至 此 , 我 们 还 没有 将 用 来 分 配 资金 比例 的 分 布 y(b) 有 个 具体 交代 。 现 在 选取 一 个 分 布 p, 
使 得 我 们 的 投资 效果 接近 于 基于 股价 向 量 的 真实 分 布 所 得 的 最 佳 投 资 组 合 的 效果 。 

在 下 面 的 引 理 中 , 我 们 将 给 出 比值 $, /S; 的 下 界 , 它 是 关于 初始 资金 分 布 x(b) 的 函数 。 

引 理 16.7.2 令 式 (16-140) 中 的 Sx (x") 为 最 佳 恒 定 持仓 比例 投资 组 合 达 到 的 相对 收益 ,而 
令 式 (16-144) 中 的 S,(x”) 为 万 能 混合 投资 组 合 B(* ) 达 到 的 相对 收益 定义 如 下 


oS; (0, x dub) 








bna (x) = - (16-147) 
Saab) 
那么 
， TI é; duto) 
S (x ) > 二 一 (16-148) 
Sa (x”) 了 I bt 


证 朋 : 如 前 面 所 述 , 我 们 可 以 改写 
S*(x") = Dw Gi") x3") (16-149) 
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FER w* Gj") = Ilo; 是 投资 在 序列 关上 的 资金 总 量 ， 而 z( 产 ) = 了 zi 是 对 应 应 的 回报 。 同 样 ， 
我 们 还 可 以 改写 


So) = [TI bxd) (16-150) 
= DIT b,x du (b) (16-151) 


= Koge") (16-152) 


sth w(t) = [T] jde) 。 此 时 ,运用 引 理 16.7.1, 我 们 可 以 得 到 
wre 





S, (x”) 
i = Ow 16-153 
Si (x") Dew" (PG) ( ) 
Smin PRED (16-154) 

(j x(g") 
J sib; dx(b) l 
= min -一 全 一 一 一 (16-155)0O 
了 Ilo; 


接 下 来， BAB 5 人 服从 多 利克 雪 分 布 (Diichlet[ 了 )， 我 们 将 运用 该 引 理 。 
定理 16.7.2 当 m==2 只 股票 时 , 对 于 式 (16-141) 给 出 的 因果 万 能 投资 组 合 6b,(),i=1， 
2,…， 如 果 dj(b) 服 从 Dirichlee(F-, 5) AAT, 那么 对 于 任意 n 以 及 任意 股票 序列 x"， 均 有 
S(2") 1 
S;(2") 23 Sni 


WR: 如 前 面 式 (16-112) 所 讨论 的 那样 , 我 们 可 以 证 明 最 佳 恒 定 持仓 比例 投资 组 合 b 投资 
在 序列 关上 的 比重 为 





Ilo; = (AY (2V = ame (16-156) 


n 


其 中 ,是 下 标 j;=1 的 数目 。 如 果 密 度 函数 取 为 Dirichlet( £), 我 们 仍然 能 够 解析 地 计算 出 引 
理 16.7;2 的 式 (16-148) 中 的 右边 分 子 项 的 积分 。 此 时 , 对 于 m 个 变量 的 情形 定义 


oT 3) Per, 4 
du(b) = Foy vn Ll jab (16-157) 
beii 


其 中 T(z) = [ed AN RR. HTAR, ATA RERE, HR, 


<< -1 
du(b) = ENE 0<b<1 (16-158) 
此 处 的 5 是 指 分 配 到 股票 1 的 资金 比例 。 下 面 针对 任意 序列 PE 11,2)", 考虑 投资 在 该 序列 的 资金 总 量 ， 

agn = Lo, = ea- a) (16-159) 


其 中 是 下 标 j;=1 的 数目 。 于 是 
for )du(b) = fea -y 1 1 


x Jed E (16-160) 
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= fata - b)"-"-3db (16-161) 
4*B(i+5.n-1+4) (16-162) 
此 处 的 BOA, ADDN BR, 其 定义 如 下 
B(Aq,A) = [etd de (16-163) 
_T(ADT(A,) 
“Theta (16-164) 
以 及 
Ta) = | > àle tdr (16-165) 





注意 , AFERE n, ATC + =n! 以 及 (n+ 于) =H Cn Dy, 


利用 分 部 积分 递 推 公 式 , 或 者 等 价 地 ,利用 式 (16-164), 我 们 可 以 计算 出 


B(i+ 5-144) ar 
1 1 CAC) 

















Bfi+4,n-1+4 -4 g (16-166) 
2 

将 这 些 结果 与 引 理 16.7.2 结合 , 我 们 可 得 

ae > min ls f (16-167) 
n 3 b; 
1 1 1 
BIllit ,nl+ 

> z” SRT z) (16-168) 
>A (16-169) 
将 该 结果 用 到 [135] 的 定理 2 中 , 则 得 到 定理 的 证 明 。 口 


由 此 可 以 推出 对 于 m =2 只 股票 的 情形 时 , 对 于 所 有 n 以 及 所 有 市 场 序列 Xi, X230, Xas 


均 有 
S$ 1 

， Ss" A (16-170) 

即 , HFH n, 好 的 最 小 最 大 投资 组 合 的 表现 与 固定 基准 的 最 小 最 大 投资 组 合 相 比较 ; 至 多 值 

一 个 超额 因子 V2x。V 解释 为 万 能 投资 组 合 的 成 本 , 在 下 面 公式 的 意义 下 , 这 种 成 本 是 可 以 渐 


近 和 忽略 掉 的 。 
(16-171) 





l; a 1 1, Va 
= ny wo x n 之 一 
z nS, (x ) mins, (x”) n T 


因此 , 该 万 能 因果 投资 组 合 与 最 佳 事后 诸葛 亮 式 投资 组 合 具有 相同 的 渐 近 增长 率 。 

让 我 们 来 考虑 该 投资 组 合算 法 如 何 针对 两 只 真实 的 股票 进行 操作 。 我 们 选取 道琼斯 指数 的 
两 只 指标 股 : Hewlett-Packard 与 Altria (原名 Phillip Morris)。 观 察 周 期 为 .14 年 (截至 2004 年 )。 
在 这 14 年 中 , HP ESET 11.8 倍 , 而 Altria 上 涨 了 11.5 倍 。 关 于 这 两 只 股票 的 不 同 的 恒定 持仓 


fos) 
wy 
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比例 投资 组 合 的 相对 收益 如 图 16-2 所 示 。 而 最 佳 恒 定 持仓 比例 投资 组 合 (这 只 能 事后 才能 计算 
出 来 ) 的 增长 因子 为 18.7, 这 是 按 HP h 51% 与 Altria 占 49% 的 比例 组 合 而 得 。 本 节 所 描述 的 万 
能 投资 组 合 在 没有 任何 先 验 知识 的 情况 下 , 所 达到 的 增长 因子 依然 高 达 15.7。 


初始 投资 值 S,(2) 
S 


0 01 02 03 04 05 06 07 08 09 1 
在 HPQ 中 资金 的 比例 


图 16-2 关于 HP 与 Altria 的 不 同 恒定 持仓 比例 投资 组 合 的 表现 


16.8 Shannon-McMillan-Breiman 定理 (广义 渐 近 均 分 性 质 ) 


遍历 过 程 的 渐 近 均 分 性 质 (AEP) 已 经 以 Shannon-McMillan-Breiman 定理 而 著名 。 在 第 3 章 
中 , 我 们 曾经 证 明了 独立 同 分 布 信 源 的 AEP, 本 节 我 们 给 出 更 为 一 般 的 遍历 信 源 定理 的 证 明 。 利 
用 两 个 遍历 序列 三 明治 , 将 二 logp(X") 来 在 中 间 证 明 它 的 收敛 性 。 

从 某 种 意义 上 讲 , 遍历 过 程 是 使 得 强大 数 定 律 成 立 的 最 为 一 般 的 相关 过 程 了 。 对 于 有 限 字 
母 表 过 程 , 遍历 性 等 价 于 所 有 一 阶 经 验 分 布 收 合 于 他 们 的 边际 分 布 。 

严格 的 定义 需要 涉及 概率 论 中 的 一 些 概 念 。 具体 讲 , 一 个 遍历 的 信 源 必须 定义 在 一 个 概率 空 
间 (0,8 ,P ) 上 , 其 中 8 是 0 的 一 些 子 集 组 成 的 c RR, TP 是 概率 测度 。 一 个 随机 变量 X 定义 
在 概率 空间 O 上 的 函数 X(w),wE Q。 我 们 还 可 以 定义 概率 空间 自身 之 间 的 变换 TOO, 它 的 
作用 可 看 成 是 时 间 推 移 。 如 果 对 于 任意 ACB, WA P(TA)= P(A), BARER 工 是 平稳 的 。 
如 果 任 何 一 个 满足 条 件 TA = A (几乎 处 处 ) 的 集合 A 只 能 是 P(A)=0 或 者 P(A)=1, 则 称 该 变 
换个 是 遍历 的 。 如 果 工 既 是 平稳 的 又 是 遍历 的 , 则 称 以 X,(w) =X(Te) 的 方式 定义 的 过 程 为 
平稳 遍历 过 程 。 对 于 平稳 遍历 信 源 , 伯 克 霍 夫 (Birkhoff) 遍 历 定理 指出 


LD Xo) > EX = |XdP AER 1 成立 (16-172) 
于 是 , 大 数 定律 对 于 遍历 过 程 依然 成 立 。 
我 们 希望 利用 遍历 定理 导出 如 下 结果 
- Llogp(Xo, Xi, X,-1) =- 1 Soep(x, | Xo") . 
> limE[ ~ logp(X, | X97") ] (16-173) 


.但 要 注意 的 是 , 随机 序列 p(X;| Xi !) 不 是 遍历 的 , 而 与 之 紧密 相关 的 量 PXI XDA p(X 
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XOA) 是 遍历 的 , 且 很 容易 发 现 它 们 的 期 望 与 炉 率 等 同 。 由 此 , 我 们 打算 将 p(Xi| X51) 夹 人 这 
两 个 更 容易 处 理 的 过 程 之 间 。 
我 们 定义 & BYR HE 为 


Ht =E! ~ logp (X; | Xp -13 Xk-2> 3 Xo) } (16-174) 
=Ej —logp( Xo|X-1,X 25°77, X_,)! (16-175) 
其 中 最 后 一 个 方程 是 由 平稳 性 推出 的 。 IZ — Pe 
H = lim Ht (16-176) 
= lim + SiH (16-177) 


显然 , CRBEURIMAR ER) SES A HNH. 而 HNH = H” 对 于 最 终 获得 定理 证 
明 是 至 关 重 要 的 , 其 中 
H” = E| — logp(Xo|X_,,X-2,°":) | (16-178) 

等 式 H= H” 的 证 明 涉及 到 期 望 与 极限 次 序 的 交换 性 。 

Shannon-McMillan-Breiman 的 证 明 过 程 的 主要 思路 可 以 追溯 到 按 ( 条 件 ) 比 例 博弈 的 思路 。 一 
个 股民 如 果 已 知道 过 去 的 & 个 时 刻 的 信息 , 那么 他 的 资金 增长 率 将 是 log- H, 而 如 果 他 知 
道 所 有 过 去 信息 的 话 , 那么 他 的 资金 增长 率 将 是 log|X| - H”。 我 们 虽然 不 清楚 当 股 民 知道 过 去 
的 XG 的 信息 时 资金 增长 率 将 如 何 变 化 ， 但 它 必然 夹 在 log|¥| — H "3 log| ¥ | - HH? Ziel. AF 
HNH= H”, 于 是 三 明治 两 边 重合 , 从 而 可 知 增长 率 为 log| 净 | 一 

我 们 接 下 来 将 通过 几 个 引 理 来 导出 定理 的 证 明 过 程 。 

定理 16.8.1(AEP: Shannon-McMillan-Breiman 定理 ) ”如果 H 2A AAT Bie it 42 | X, | 
WAE, 那么 


=F Nog pl Xo. X, DH 依 概率 1 成 立 (16-179) 


证 明 : 我 们 仅 对 守 为 有 限 字 母 表 的 情形 进行 证 明 。 该 证 明 过 程 以 及 针对 可 数字 母 表 且 密度 已 
知 的 情形 的 证 明 过 程 可 见 Algoet 与 Cover[20]。 如 果 我 们 能 够 说 明 对 任意 的 上 之 0, 随机 变量 序列 


-二 logp(X%!) 渐 近 地 处 于 上 界 H FRH ZH, 则 由 HHU H” =H ETR] AEP. 
对 于 所 有 nk, 关于 概率 的 k YORE LH 





POTD = pD TT p(X EX) (16-180) 
由 引 理 16.8.3, 可 得 
. 1, PUM) 
lim sup— log (Xt) 0 (16-181) 


考虑 到 极限 lim logt" (Xp HOFFA HE LBI 16.8.1), 我 们 可 将 式 (16-181) 改 写 为 





. 1 1 . 1 1 k 
一 log 一 一 一 一 委 =. =H 16-182 
LP E px 1) en 8 XE) (16-182) 


对 所 有 有 &= 1,2,… 成 立 。 同 理 ， aa 8.3, 我 们 还 可 以 得 到 
1, (Xp !) 
lg 50x 1XL) 


同 利用 引 理 16.8.1 中 H” 的 定义 ,， 上 式 可 以 改写 为 


<0 (16-183) 


lim 1 sup 





CN 
> 
fo.) 


lon 
A 
~] 
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lim inf 二 log lim 1 log = He (16-184) 


1 1 
p(X!) pPCXITIIXIL) 


将 式 (16-182) 与 式 (16-184) 联 合 , 我 们 可 得 
He<lminf- Tlogp( Xs H <lim sup — Tlogp( X31!) 


<H! 对 任意 的 上 & 均 成 立 (16-185) 
再 由 引 理 16.8.2, 可 知 H>H” =H, 从 而 得 到 
lim ~~ logp(X$) = H (16-186) 


接 下 来 我 们 补 证 所 有 在 定理 的 证 明 过 程 中 用 到 的 引 理 。 第 一 个 引 理 要 用 到 遍历 定理 。 
引 理 16.8.1( 蕊 尔 可 夫 通 近 ) ”对 平稳 遍历 的 随机 过 程 {X,| ,我们 有 


- + loge! (Xg DH 依 概 率 1 (16-187) 


- > logp(X§1| X74.) +H” 依 概 率 1 (16-188) 


证 明 : h PAIX, ORS Y, = f(X) 仍然 是 遍历 的 过 程 。 FE, p(X, | X%-%) 以 
及 Jogp(X,|1X,_1,X,-2,…) 也 是 遍历 过 程 , 且 由 遍历 定理 可 知 


7 一 1 
- Eog x51) =- Hoga (X69) -二 logp OG | XE) (16-189) 
i=k 


一 0+ Ht 依 概率 1 成立 (16-190) 
类 似 地 , 由 遍历 定理 也 可 以 得 到 


n—l 
- Flog (X0 | X- X2) = 一 1L Sh loga (X: | XXX) (16-191) 
i=0 


>H” 依 概 率 1 成 立 (16-192) 口 
引 理 16.8.2( 无 缝 际 ) HNH” HH” =H. 
证 明 : 对 于 平稳 过 程 我 们 知道 HNH, 所 以 只 需 证 明 HNH” , 就 可 得 到 He = 瓦 。 由 关于 条 
件 概 率 的 Levy RUSE BER A, 对 于 任意 的 Et, 有 
pirol XIL plr XIL) 依 概率 1 成 立 “ (16-193) 
HPA ARBRE H plogp $F pO<p<1) 为 有 界 连续 函数 , 则 由 有 界 控制 收敛 定理 , 可 以 将 
极限 符号 与 期 望 运算 交换 次 序 , 从 而 得 到 








limH* = lmE|- >) pP(zo1X-i)logp(zo | X31)| (16-194) 
=e koo EX 
= El- 5 plz | X-l)logp(zo | X)| (16-195) 
EX 
=H” (16-196) 
于 是 , HNH=H”, 、 O 
引 理 16.8.3( 三 明治 ) 
PXD) 
lim sup- L og 公交 -<0 (16-197) 
, 1 pX) 
lim sup mlog pm xL (16-198) 


证 明 : 令 A 为 p(X% ') 的 支撑 集 , 则 
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(XY 1) 
z| PT z|- pli 8) wera (16-199) 
= Seer a (16-200) 

= ‘CA 
= pA) (16-201) 
See (16-202) 


类 似 地 , $ B(X-4) 为 p(*|X-t) 的 支撑 集 , 则 有 


p( X57) 2 p( X51) 
p(X | XL) | =E|E| oD 


a pla") pe) yx 
= EL pe xa) x4) | (16-204) 


x | | (16-203) 




















=E[ > p(z")] (16-205) 
TEBXL) 
<1 (16-206) 
再 由 马尔 可 夫 不 等 式 以 及 式 (16-202), 我 们 有 
Pr z a n= >| <t (16-207) 
或 者 
x 
Pr Logfia zaa oe p> >H tog, |<1 (16-208) 
Be 1, =n? EBB) > 点 < co ,由 Borel-Cantelli 引 理 , 可知 事件 
l An AGN 
一 log og (XA pa L logt, | (16-209) 
以 概率 1 仅 发 生 有 限 多 个 。 于 是 ， 
lim sup + log A aren iy S0 依 概率 1 成 立 (16-210) 
利用 马尔 可 夫 不 等 式 , 将 相同 的 讨论 应 用 于 式 (16-206), 我 们 可 得 
1 p(X") 
lim sup >, log zri x =) 0 依 概率 1 成 立 (16-211) 
引 理 得 证 。 口 


证 明 过 程 中 的 论证 方法 可 以 推广 到 股票 市 场 的 AEP 的 证 明 中 去 (定理 16.5.3)。 
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习题 
16.1 增长 率 。 设 


X- | 1,a)， ”概率 为 12 
(1,1/a)， 概率 为 1/2 
其 中 a >1。 该 向 量 代表 的 是 只 有 现金 与 一 只 股票 组 成 的 简化 证 券 市 场 向 量 。 令 
W(b,F)=E log b'X 
以 及 
W” =maxW(b, F) 
是 增长 率 。 
(a) 求 出 对 数 最 优 投 资 组 合 b* 。 
(b) 求 出 增长 率 W”. 
(c) 3R S, = II vx; 关于 所 有 b 的 渐 近 行为 。 
16.2 边 信息 。 在 习题 16.1 中 , 假设 
-化 当 (Xi,X2) 宇 (1,1) 
lo, 24(X,,X)<(1,1) 
假定 投资 组 合 b 依赖 于 Y, 求 出 新 的 增长 率 W**，, 并 验证 AW = W** 一 W’* 满 足 
AW<I(X;Y) 
16.3 股票 市 场 。 考虑 特殊 的 股票 市 场 向 量 
X=- (XX 
假定 Xi = 2 的 概率 为 1。 于 是 , 投资 在 第 一 只 股票 上 收盘 时 就 会 翻 倍 。 
(a) 找 出 关于 股票 X, 的 分 布 使 得 关于 该 分 布 的 最 优 投资 组 合 b* 恰 为 将 所 有 资金 投入 到 股 
BX, 的 投资 决策 b* = (0,1) 的 充 要 条 件 。 
(b) 对 于 X: MERAH, 讨论 增长 率 满足 W* 宇 1 。 
16.4 包括 专家 与 共同 基金 。 令 X~F(x), xER” 是 一 个 股票 市 场 的 相对 价格 向 量 。 假 设 一 个 
“专家 "建议 投资 组 合 b。 这 将 产生 相对 收益 bX。 我 们 把 它 加 到 股票 向 量 中 形成 
义 = (Xi, 义 ，,…,X,, ,b‘:X)。 证 明 新 增长 率 ， 


W* = max | In(b'x) dF (x) (16-231) 
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等 于 旧 的 增长 率 ， 
w* = max | In(b'x) dF (x) (16-232) 
16.5 对称 分 布 的 增长 率 。 考 虑 股票 向 量 X~ F(x), XER? , X50, HY, 股票 分 量 是 可 交换 的 。 
于 是 ， 对 所 有 的 置换 O, 有 F( x1 5225° Tm) = F(z) Lo(2) 9°" s Le(m)) © 
(a) 找 出 使 增长 率 最 优化 的 投资 组 合 b* 并 确立 其 最 优 性 。 现 假设 和 已 经 规范 化 ,使 得 
LYX = 1, 且 如 前 所 述 ，F 是 对 称 的 。 
(b) 假设 X 是 标准 化 的 , 证 明 所 有 的 对 称 分 布 下 关于 b* 有 相同 的 增长 率 。 


(c) 找 出 这 个 增长 率 。 
16.6 SH, 我们 对 产生 相同 投资 组 合 的 股票 市 场 密度 的 集合 有 兴趣 。Pn 是 及 + 上 所 有 概率 密度 


集合 中 by 最 优 的 。 于 是 , Pu = 1p(z):|In(biz)p(z)dz| 当 b= by 时 取得 最 大 值 。 证 明 
Pu 是 一 个 凸 集 。 使 用 定理 16.2.2 会 有 帮助 。 


16.7 卖 空 , 今 
(a P 
X= 1 
(ty) 172 


再 令 B={(b1,b2):bi+ b= 1l FH, 投资 组 合集 合 B RURAR bZ ORERE 
空 )。 
(a) 求 出 对 数 最 优 投资 组 合 b* (p)。 
(b) 导出 增长 率 W*(p) 5AF 日 (p) 的 关联 性 。 
16.8 规范 化 x。 假 如 将 对 数 最 优 投 资 组 合 b* 定义 为 使 得 相对 增长 率 


fin i = dF (245°; Zm) 


mM i=1 





达到 最 大 值 的 投资 组 合 b”。 MARIA DX, 的 优点 是 使 相对 增长 率 有 限 , 即使 在 增长 


率 |nezdF(z) 无 界 的 情形 也 是 如 此 , 其 可 以 视 为 按照 均匀 投资 组 合 的 相对 收益 。 例 如 ， 
当 X 服从 Petersburg 型 分 布 时 便 是 这 样 。 于 是 , 对 数 最 优 投 资 组 合 b* 是 针对 所 有 分 布 FF， 
即使 它们 出 现 了 增长 率 W* (FF) 无 穷 的 情况 。 


(a) 如 果 b 使 得 | in(bX)dF(z) 最 大 ,那么 也 必然 使 (2 jdP(z) 最 大 。 其 中 = 
(2,4,...1) 
m'm’ ‘m?’ 
(b) 对 于 
(22 +1,22 ) 2-(k+1) 
-2 27 (4+1) 
求 出 对 数 最 优 投资 组 合 b” 。 
(c) 求 EX 以 及 W* 
(d) 讨论 在 PrfbrX> ch" XI 过 的 意义 下 , b" 是 竞争 地 强 于 任何 其 他 投资 组 合 b。 


其 中 名 =1,2,… 
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16.9 万 能 投资 组 合 。 对 于 m =2 只 股票 且 (5) 是 均匀 分 布 的 情形 , 检验 16.7.2 节 中 的 万 能 投 
资 组合 的 推理 中 的 前 两 步 (n = 2)。 令 第 一 和 第 二 个 交易 日 的 股票 向 量 分 别 为 


x= (1 二) 和 加 = (1,2)， 又 令 b= (6,1- 0) 为 一 投资 组 合 。 


(a) 画 出 $2(b) = [[b'x,,0<6 <1 WA. 


(b) 计算 S; = maxpS2(b) 
(c) 讨论 logS,(b) ERF b HH wR. 


(D 计算 (万 能 ) 相 对 收益 S2 = | s:(b)db 。 
(e) 万 能 投资 组 合 在 次 数 ”= 1 与 n= 2 时 为 ; 


b, 一 | a 
bS, (odb 
Box) = 一 一 
| spa 
0 


计算 它们 的 值 。 
O 如 果 我 们 置换 两 只 股票 序列 出 现 的 次 序 ， 即 ,如 果 序列 变 成 (1,2) 和 (1, 士 ), 那么 S 
(b),S2 ,Sz,b 中 哪些 是 不 变量 ? 

16.10 增长 最 优 。 F X1,XX, 之 0, 为 两 只 独立 的 股票 的 相对 价格 。 假 设 EX) DEX, 那么 你 是 否 
认为 X 的 增长 率 总 是 会 优 于 投资 组 合 S(b) = 6X, + BX2? 证 明 或 举 反例 。 

16.11 万 能 性 的 代价 。 在 有 限期 的 万 能 投资 组 合 的 讨论 中 ,由 于 万 能 性 的 原因 导致 的 折扣 因子 


为 
= BERRY (16-233) 
对 于 n=1,2,3, 分 别 估 计 V,。 
16.12 廿 的 随机 变量 族 。 这 是 推广 定理 16.2.2 的 问题 。 我 们 说 一 个 随机 变量 族 S 是 凸 的 , 是 指 
对 任意 S SES, 以 及 任意 0 委 ) 委 1, WH AS, + (1 一 和 A)S,E65。 令 5 是 一 个 闭 的 随机 变 
BAK. 证 明 存在 一 个 随机 变量 S* ES 使 得 对 于 任意 SES 均 有 





E in & S <o (16-234) 
等 价 于 对 于 任意 SES 均 有 
E( 们 jsl (16-235) 
历史 回顾 


介绍 利用 均值 -方差 分 析 法 进行 股票 市 场 投资 的 文献 相当 多 , 其 中 Sharpe 的 专著 [491] 是 一 
本 很 好 的 人 门 书 。 对 数 最 优 投资 组 合 是 Kelly [308] 和 Latané [346] 引入 的 , 后 来 Breiman [75] 
对 此 进行 了 推广 。 使 用 互信 息 给 出 增长 率 的 不 等 式 是 由 Barron 与 Cover [31] 中 的 工作 。 
Samuelson 在 文献 [453, 454] 中 给 出 了 对 数 最 优 投资 理论 的 临界 。 

对 数 最 优 投资 组 合 的 竞争 最 优 性 的 证 明 是 由 Bell 与 Cover 在 文献 [39，40] 中 给 出 的 。 


CN 
Ww 
A 


wa 
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Breiman 在 文献 [75] 中 验证 了 随机 市 场 过 程 的 渐 近 最 优 性 。 

渐 近 均 分 性 质 是 香农 引入 的 。 但 是 , 股票 市 场 的 渐 近 均 分 性 质 以 及 对 数 最 优 投 资 的 渐 近 最 优 
性 是 由 Algoet 和 Cover 在 文献 [21] 中 给 出 的 。 对 于 渐 近 均 分 性 质 的 相对 简洁 的 三 明治 证 明 方 法 
也 是 Algoet 和 Cover 在 文献 [20] 给 出 的 。 对 于 实 值 的 遍历 过 程 的 渐 近 均 分 性 质 的 证 明 是 Barron 
[34] 和 Orey[402] 给 出 的 , 其 方法 具有 一 般 性 。 

万 能 投资 组 合 的 概念 是 Cover 在 文献 [110] 中 提出 的 , 并 且 对 于 万 能 性 的 证 明 也 是 在 该 文献 
中 一 并 给 出 的 。 但 更 精确 的 证 明 则 是 在 文献 Cover 与 Ordentlich [135] 中 。 对 于 固定 长 度 的 情形 ， 
万 能 性 的 代价 V, 的 精确 计算 在 Ordentlich 与 Cover 的 文献 [401] 中 。 该 量 V, 也 在 Shtarkov HX 

于 数据 压缩 的 著作 [496] 中 出 现 。 





第 17 章 ”信息 论 中 的 不 等 式 


本 章 总 结 和 整理 了 出 现 于 全 书 中 的 不 等 式 。 同时, 阐述 一 些 新 的 不 等 式 , 如 有 关子 集 的 炉 率 
URMSL, 范 数 之 间 的 关系 。 费 希 尔 信息 与 粹 之 间 存 在 着 紧密 的 联系 , 这 集中 体现 在 炉 矫 不 等 
式 和 布 伦 - 闵可夫 斯 基 不 等 式 (Brunn-Minkowski inequality) 具 有 一 个 共同 的 证 明 方 法 。 另 外 , 信 
息 论 中 的 不 等 式 与 其 他 数学 分 支 ( 如 矩阵 论 和 概率 论 中 的 不 等 式 ) 具 有 众多 的 相似 之 处 。 


17.1 信息 论 中 的 基本 不 等 式 


信息 论 中 的 许多 基本 不 等 式 均 是 可 以 由 凸 性 直接 得 到 的 。 
定义 ”如果 对 任意 的 0 生生 1, 以 及 /的 一 个 凸 邻 域内 的 任意 zl 和 zz， 满足 
COMzi+(1-A)zz)sAFGz)+(1L-A)ACz2) 
PRM 了 是 凸 的 。 
定理 17.1.1( 定 理 2.6.2:Jensen RFA) ”如果 了 是 廿 的 , 则 
f(EX)SEf(X) 
引 理 17.1.1 函数 ljogz HU BR, 而 rlogr LHBRK, 其 中 0<r<%。 


定理 17.1.2( 定 理 2.7.1: 对 数 求 和 不 等 式 ) 对 于 正 数 2 Fe bisbat, 


a; 





Saf > (Dae 


其 中 当 且 仅 当下 二 常数 等 号 成 立 。 


由 2.1 节 可 知 ， REA OP EMR 
定义 “离散 型 随机 变量 X HX) RA 


H(X) = - È p(x)logp(z) 


定理 17.1.3( 引 理 2.1.1、 ZÆ 2.6.4: aR) 
O0<H(X)<log|¥| 
定理 17.1.4( 定 理 2.6.5: 条 件 作 用 使 焙 减 小 ) 对 任意 两 个 随机 变量 X KY, 
H(X| Y)<H(X) 
其 中 当 且 仅 当 X 和 了 独立 等 号 成 立 。 
定理 17.1.5( 定 理 2.5.1 及 定理 2.6.6: 链 式 法 则 ) 


H(X1, X25 Xn) = D H(X: | X;_1,… X) S >) H(X;) 
i=l i=l 


其 中 当 且 仅 当 Xi, X23, Xn 相互 独立 等 号 成 立 。 
定理 17.1.6( 定 理 2.7.3) H( p)zAT p HUSK, 
下 面 我 们 陈述 相对 箭 和 互信 息 的 某 些 性 质 (2.3 节 ): 


定义 “两 个 概率 密度 函数 p(x) 和 g(z) 之 间 的 相对 精 或 Kullback-Leibler 距离 定义 为 


p(x) 


D(p | q) = 2 p(x)log 2 q(x) 


bas 


(17-1) 


(17-2) [657 


(17-3) 


(17-4) 


(17-5) 


(17-6) 


(17-7) 


(17-8) 
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定义 “两 个 随机 变量 X ALY 间 的 互信 息 定义 为 
IGY) = D D ple slow Sy = Dle) laD (17-9) 


以 下 这 个 基本 的 信息 不 等 式 可 用 来 证 明 本 章 中 许多 其 他 的 不 等 式 。 
定理 17.1.7( 定 理 2.6.3: 信 息 不 等 式 ) 对 任意 的 两 个 概率 密度 函数 pq, 
D(p || ac)>0 (17-10) 
其 中 当 且 仅 当 对 任意 的 ZE,p(x)= q(x) 等 号 成 立 。 
推论 ”对 任意 两 个 随机 变量 X 和 了 ， 
1(X;Y)=D(p(z,y) ll p(x) p(y)) 20 (17-11) 
其 中 当 且 仅 当 p(z,y)=plz) ply) (FX SY 相互 独立 ) 等 号 成 立 。 
定理 17.1.8( 定 理 2.7.2: 相 对 炳 的 凸 性 ) D pl dVKT-AM(9,g7) 2G BK. 
定理 17.1.9( 定 理 2.4.1) 


I(X;Y)=H(X)- H(XIY) (17-12) 
I(X;Y)= H(Y)- ACY|X) (17-13) 
I(X;Y)=H(X)+ H(Y)- H(X,Y) (17-14) 
I(X;X)= H(X) (17-15) 


定理 17.1.10(4.4 节 ) 对 于 一 个 马尔 可 夫 链 : 
1. AIA D(m ll uv’) RAT AR, 
2. 一 个 分 布 和 平稳 分 布 间 的 相对 炉 D(jp 上 1) 随时 间 递减 。 
3. 如 果 平 稳 分 布 是 均匀 分 布 ,那么 炳 HX, ) 递 增 。 
4. 对 于 平稳 马尔 可 夫 链 ， 条 件 精 昌 (X,|X1) 随 时 间 递 增 。 
定理 17.1.11 Z X,X,X, Aid. ~ plz), p, Æ X1, X200, Xn 的 经 验 概 牵 密度 函 
x, Rj 
E D(p, | p)<E D(A, -1 ll p) (17-16) 


17.2 oH 


BLE HE EL BF Sy HY) EAS HEIR (8.1 节 )。 
定义 FED Bi h(X,,X2,°", X, ) 有 时 记 成 h(f), 定义 为 


h(X1, X230 Xn) =- | flogf(x)dx (17-17) 
许多 常见 的 密度 函数 的 微分 粹 安排 在 表 17-1 中 。 
定义 “概率 密度 函数 /和 g 之 间 的 相对 炳 为 

D(f ll.) = [flog f(x) /g(x))dx (17-18) 


ESE PAAR SRE. GAH, 微分 炉 具 有 茶 些 不 同 于 离散 
WE. Win, 微分 炉 可 能 为 负 值 。 

下 面 我 们 董 述 的 是 对 于 微分 炳 情形 仍然 成 立 的 其 中 几 个 定理 。 

定理 17.2.1( 定 理 8.6.1: 条 件 作用 使 炉 减 少 ) ACXIY)<A(X), 其 中 当 且 仅 当 X 与 了 相 
互 独立 等 号 成 立 。 

定理 17.2.2( 定 理 8.6.2: 链 式 法 则 ) 


hX X2 Ka) = DACX; | Xii X20 X1) < DAK) (17-19) 
i=l i=1 
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HAPS AMY X, Xa X, 相互 独立 等 号 成 立 。 
引 理 17.2.1 wR X HY WARS, WACX+ VISA(X). 

证 明 : h(X+ Y)Sh(X+ Y|Y)=h(XIY)=h(X)。 o 
表 17-1 RIAR 
TO 

分 å h 
| WER) 
名 称 | 密度 函数 | 
1- x) ! InB(p,q)-(p-1 一 十 
8 分 布 |A PER o<2<I,p.q>0 mee Co Hay HPO) 
柯 西 分 布 | f(x)= Aa o< 7<00,A>0 In(4na) 
| 
zz T(n/2 -i /n n, 
x 分 布 f2)= SARA aes x>0,n>0 in rina) E W(F)+5 
1 Boy - 
x 分 布 I) = Appin)? le 52, r>0,n>0 ime ) (1-4 )o(4)+4 
埃 尔 朗 a 
(Erlang) f(r)=7 = x le, x, p>0,n>0 C= n)g(n) + in E22 + 9 
n~1)! B 
分 布 4 -| 
指数 分 布 fla)=teF 2,a>0 1+ lnX 
十 人 
12 n ip{ m 22 -m 21 
nin? be intB ( 3) + ( a )9(3) 
下 分 布 | f(2)= ni m x mtm, ">0,n1,n2>0 n2 n2) mtn: {ntn 
B(7 ， >) (nat nix) 2 -(1-2)y 22) + 2 4 2 ) 














工分 布 hos Pila ‘ z,a,p>0 






































4 
ronal Hajad i, -0< x,0<0,>0 1+ in2a 
TEAM | 
(Logistic) | f(2)= iar -<r 2 
分 布 
一 | 一 
ARES fla)=— ge oa = £r>0,-~<m<&,o>0 m+ + in(2neo”) 
2n 
EIE- 2 2 la x 1 
ATAR f(x) =4r p? r e”, z,ß>0 ging ra 
lena 
正 态 分 布 | f(r) = ae Ie Lr, yul, o>0 人 广 In(2rec ) 
| no |“ 
a 
广义 正春 f(x) = 26 To le e, r,a, p>0 r7)? a-l a a 
分 布 fr) | ”26 了 2 o($)+ 
帕 雷 托 ak? k 1 
(Pareto) fla) =i zx 之 k>0,a>0 ho tita 
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( 续 ) 

分 A RECRE 
名 称 密度 函数 | ) 
瑞 利 22 Boy 
Kayleigh) f(z)= Fre as x,b>0 1+ 万 + 这 
学 生 g f(x) = 1+ e/a) tD wo< <0, n>0 Toad n+l n 1 
分 布 Va8( 方 ,至 ) rar) (4) *evaB( 4) 

2x 02a | 
三 角 分 布 |f) 2301 去 -In2 
= ， @SrSl 
+— 

均匀 分 布 | 二 es In(8-a) 
韦 布尔 上 ， T 1 
(Weibull) | f(z)= Ex te F, z,c,a>0 (c= D7 4 2 44 
分 布 a C C 


注 : 表 中 所 列 的 炉 的 单位 均 为 奈 特 ; 其 中 T(z) = I. et? ldt; glz) = 是 mr(z); 7 为 欧 拉 常数 =0.577 215 66… 


定理 17.2.3( 定 理 8.6.5) ANKE XER 均值 为 零 ， 协 方差 阵 为 K= EXX, OK, = 
E XX, TI<i7Jsao 则 


h (X) <+ log(2ne)* |K | (17-20) 
其 中 当 且 仅 当 X 义 ~~ 入 (0,K) 等 号 成 立 。 
17.3 BSAA 


在 本 节 中 , RIKERA XARA HR. RPRARMERERSR, 因为 当 编 码 速率 
大 于 信道 容量 时 ,由 此 不 等 式 , 可 以 估计 出 一 个 通信 信道 的 最 佳 译 码 器 的 误差 概率 将 远 远 偏 
离 零 。 
定理 17.3.1( 定 理 2.10.1: 费 诺 不 等 式 ) 给 定 两 个 随机 变量 X KY, 令 生 =g(Y) 为 在 已 知 
信息 立 的 条 件 下 的 估计 。 又 令 已 = Pr(X 天 六 ) 为 误差 概率 ， 那 么 
H(P,) + P,log|¥ | =>H(X|X)2H(X|Y) (17-21) 
从 而 , 如果 H(X|Y)>0, 则 P,>0。 
下 面 的 引 理 给 出 了 一 个 类 似 的 结果 。 
引 理 17.3.1( 引 理 2.10.1) 如 果 与 X' 是 独立 同 分 布 的 , 且 炳 为 H(X) 
Pr( X = X’) 2274 (17-22) 
当 且 仅 当 六 是 均匀 分 布 等 号 成 立 。 
对 于 连续 型 , 类似 的 费 诺 不 等 式 则 是 以 估计 子 的 均 方 误差 为 上 界 。 
定理 17.3.2( 定 理 8.6.6) 令 久 为 随机 变量 , HADMA A(X), HARAXE 
E(X- RY 误差 期 望 值 ， 那么 


E(X- RV >z gn (17-23) 
当 边 信息 了 WRX (Y)KRER, 
E(X- R(Y)} >z A» (17-24) 
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定理 17.3.3 HL A) 设 户 和 q 均 是 站 上 的 概率 密度 函数 , 且 满 足 
le-alls= D1p(z)- ale) <t (17-25) 
EX 
则 
|H(p)-H(q)|<— | p-a |l log Agel (17-26) 
证 明 : 考虑 如 图 17-1 所 示 的 函数 f(t) = - tlogt。 通 过 微分 可 以 验证 f(-)AMBR A 


f(O) = f(1) = 0。 因 此 , 函数 在 0 与 1 之 间 为 正 值 。 考 虑 函数 从 上 到 :+ v 的 弦 ( 其 中 E). 在 
端点 ( 即 当 += 0 R1- o 时 ) 处 , 弦 的 斜率 的 绝对 值 达到 最 大 值 。 因 此 , NFO- v, 我 们 有 


| f(t) — f(t + v) Smax f(v), f(1 ~ v)} = - vlogv . (17-27) 
& r(x)=|p(x)-q(x)|, WA 
|H(p) - H(q)|= | dy p(x)logp(x) + q(x) logg(x)) | (17-28) 
zE 
< > | (~ p(x)logp(x) + q(x)logg(x)) | (17-29) 
zE 
< > -r(z)logr(z) (17-30) 
zE 
= lp- h -rog MB l-al (17-31) 
447° Te-a ET- 
=- || p-alliell p-allit llp-all A(T rh -) (17-32) 
<- Il p-qllibogll p-qllit I p-a llogi (17-33) 
其 中 式 (17-30) 可 由 式 (17-27) 推 出 。 口 
最 后 , 在 下 面 的 意义 下 , ARE, 范 数 。 
AN=—dnt 
0.4 
0.35 
0.3 
0.25 
> 0.2 
0.15 
0.1 
0.05 | 
00 0.2 0.4 0.6 0.8 1 


17-1 函数 f(r) = 一 tmt 
引 理 17.3.2( 引 理 11.6.1) 
1 
D(p1 ll p27 AG |217 22l (17-34) 


% P= Q 时 , 两 个 概率 密度 函数 P(z) 和 Q DE 0. BIGGAR, HD 
一 个 二 次 型 性 质 , FENN DCP || Q) 在 点 P= Q 处 的 泰勒 级 数 展开 的 第 一 项 是 分 布 P,Q 之 
间 的 x? 距离 。 令 





人 
nN 
Un 
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X2(P,Q) = 之 (Pla) Qa)» (17-35) 

引 理 17.3.3 对 于 了 接近 Q 的 情形 ， 
DPI Q= z+ (17-36) 
WR: 参照 习题 11.2。 口 


17.4 关于 型 的 不 等 式 


型 方法 对 于 证 明 有 关 大 偏差 理论 和 误差 指数 方面 的 结论 , 是 一 个 强 有 力 的 工具 。 下 面 我 们 
重 述 其 中 的 一 些 基本 定理 。 
定理 17.4.1( 定 理 11.1.1) 分 母 为 n 的 型 的 个 数 满足 
\P,l<(nt+1)!*! (17-37) 
定理 17.4.2( 定 理 11.1.2) 如 果 Xi, Xaos X, 是 i.i.d 且 服 从 Q(z), 则 zx" 的 概率 仅 依赖 
于 它 的 型 ， 即 有 关系 式 
Q?( 2”) =27 "(HP) + DP, IQ) (17-38) 
定理 17.4.3( 定 理 11.1.3: 型 类 T(P) 的 大 小 ) 对 于 任意 一 个 型 PEP,， 
me<| T(P)|<2"HP) (17-39) 
定理 17.4.4( 定 理 11.1.4) 对 于 任意 的 PEP, 及 分 布 QQ, 在 一 阶 指数 意义 下 , 型 类 T(P) 
在 Qr 下 的 概率 等 于 2-mD(P1Q)。 更 精确 地 讲 ， 


( Pyare PEOTI (17-40) 
n 


17.5 HASH 


当 上 不 为 0 或 者 nn 时 , 利用 Wozencraft 与 Reiffen [568]2 H 人 ) 的 紧凑 的 界 。 
引 理 17.5.1 对 于 所 有 使 np 为 整数 的 0Czp<1,g=1- 户 ,有 


1 (” ~ nH(p) 1 
< 2 D< (17-41) 
~ 8npq np ay 1npq 


证 明 : 首先 考虑 斯 特 林 逼 近 公式 的 一 个 强 形 式 [208], 叙述 如 下 
tan (%)"<n! <v Inn (2 \ 号 (17-42) 
基于 此 不 等 式 寻求 上 界 , 我 们 可 得 
n 1 
(” Vana (2) el2n 


ool yap (EN ml) 











(17-43) 


1 1 1 
= 122 (17-44) 
~ 2nnpq preg. 
1 
<— oH) (17-45) 
~ rnpg 
HF ets <0 =1.087<V2, 从 而 得 到 了 上 界 。 


类 似 地 , 获得 下 界 。 利 用 斯 特 林 公式 , 我 们 有 
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e 


“ana (2) Va 





pZ e a6 


=— A le- Gis ma) (17-47) 
V 2xnpq Pq" 
1 


= Fare (ip * ng ) (17-48) 











当 np 之 1 且 ng 之 3, WA 


(hs hi)>e$ = 0.8048 > =0.8862 (17-49) 


从 而 , 直接 将 式 (17-49) 的 估计 带 和 信 式 (17-48) 就 得 到 了 下 界 。 对 于 例外 情形 ;np 二 1 有 是 ng=1 或 
2 以 及 zzp=2 且 =2( 而 对 于 np H ng=1 或 2 可 以 通过 更 换 p 与 a 角色 来 处 理 )。 在 任意 
一 种 情形 中 


n 


pp 





np=1,nqg=1>n=2,p= 


L, (")= 2, 界 =2 
np=1,nq=2-"n=3,p= 4, (")= 3,9 =2.92 
np =2,nq=2->n=4, p= 让， (",)- 6, =5.66 
于 是 , 即使 在 这 些 特殊 情形 , 该 不 等 式 依然 有 效 。 所 以 , 只 要 pA0,1, 下 界 是 有 效 的 , 而 p=0 或 
1 时 , 下界 爆炸 , 因而 无 效 。 口 
17.6 FROM 


PBB BRA THE GY ERE METE o BERA J TVA HS Hs AT HO A — 
ARLES HM KA RNEER: 


h(X1, X27", Xn) & Dax) (17-50) 


我 们 做 这 种 推广 是 要 证 明 一 一 个 由 随机 变量 组 成 的 集合 的 子 集中 的 炳 /元 素 随 子 集 尺寸 增加 而 递 
减 。 该 结论 不 是 针对 单个 子 集 的 , 而 是 关于 所 有 子 集 在 平均 意义 下 成 立 。 严 格 的 表述 见 定理 
17.6.1。 

定义 ” 设 (Xi,XX,,…,X,) 的 联合 概率 密度 函数 已 知 ,对 每 个 SCI1,2,--,], 用 XX(S) 表 示 
子 集 {X,:i€ Sh. 





am = LS 人 (17-51) 


Ys, ISl=k 
HAY? 表示 从 (Xi,X2,…,X,) 中 随机 抽取 RET RHTIA EAFRD. 
下 面 的 定理 是 由 Han[270] 给 出 的 , AAT EARE RISK AER. 
定理 17.6.1 
AMSA > Sa” (17-52) 
证 明 : 首先 来 证 明 最 后 一 个 不 等 式 , BAP <a”). PUBS 


~~ 
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h( Xis X25 Xn) = ROX, Kas, Xn-1) + ACK, | X1, X230, Xn-1) 
h(Xi, Xo.) Xn) =A, X23, Xn-2; Xn) + h(X, 1 | X1, X23; Xn 2 X,) 
SA (Xi, X25, Xn-2 Xa) th CX, -1| X1 X25 Xn-2) 


h(X1, X23, Xn) Sh (X2, X3," Xn) + CX) 
将 上 述 n 个 不 等 式 相 加 ,并 利用 链 式 法 则 , 可 得 
nh (Xi, Xa SDPO Kos Kear Kearse My) 


+ h(X,,X2,7, Xa) (17-53) 
或 





Th(X1, X2 Xa) < 1 X MEn Kay Xin Kens Ba} 

这 就 是 要 证 的 结论 AOAN 现在 , NFEE ALn, 通过 先 取 定 k 元 子 集 ， 然 后 同等 机 会 

地 考虑 所 有 的 (& 一 1) 元 子 集 , 就 可 以 证 明 AOA. FRE TFR, A APAY. B 

此 , 关于 从 个 元 素 中 均等 选取 的 元 子 集 取 平均 后 , 不 等 式 仍然 成 立 。 Oo 
定理 17.6.2 设 r>0, 并 且 定 义 


(17-54) 











io) =H ra (17-55) 
G ) sf 
则 
P S e (17-56) 
证 明 : 考虑 式 (17- 54), 两边 同 乘 以 >, BOE, 然后 应 用 算术 平均 - 几何 平均 不 等 式 , 即 可 得 到 
enrh (X1 X2, X,) 
<en RO Nase Me Kees Ka) (17-57) 
< de a aa te 对 任意 的 r>0 (17-58) 
这 等 价 于 OK HE, 对 于 任意 的 kn, 由 定理 17.6.1 的 相同 讨论 , 关于 所 有 R(R<n) 
元 子 集 取 平均 , 最 终 可 证 得 结论 9 <2). 口 


定义 ”对 于 大 小 为 的 所 有 子 集 , 定义 平均 每 元 素 条 件 炳 率 为 11,2,…,n| 的 所 有 元 子 集 
MAR PA 
gin = 1 5 ACXCS) LX(CSD) 
G) sisi=s k 

这 里 gS) 是 在 给 定 集合 S 的 元 素 下 集合 S METER IO. SURE S 的 大 小 增 大 时 ,可 以 
预料 集合 S 的 元 素 间 的 相关 性 将 会 增强 , 这 恰好 解释 了 定理 17.6.1。 

对 于 每 元 素 条 件 炉 情形 , 当 h 增 大 时 ,起 条 件 作用 的 集合 S 的 大 小 将 变 小 , 同时 集合 S 的 
炉 增 大 。 下 面 的 定理 是 Han[270] 给 出 的 ,可 以 说 明 : 由 于 起 条 件 作用 的 集合 元 素 个 数 的 减少 而 引 
起 的 每 元 素 炉 的 增加 主导 着 由 于 元 素 间 附加 的 相关 性 而 引起 的 每 元 素 炉 的 减少 。 注 意 ,下面 定 
理 中 的 条 件 粮 的 大 小 顺序 恰好 是 定理 17.6.1 中 所 述 的 无 条 件 炳 的 反 序 。 

定理 17.6.3 


(17-59) 


Bi "<a <<a” (17-60) 
证 明 : WEA SE SK Hh LE SCRA EE. H EN 
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ee, 然后 由 此 可 以 证 明 余 下 的 不 等 式 。 由 链 式 法 则 得 知 , — AREOLA EE IR ARK 
FHT MEE ME, 即 : 


h(X1, X2 Xs) < DACX) (17-61) 

在 上 述 不 等 式 中 , 两 边 同 时 减 去 nh(Xi,X,,…,X,), 可 得 
(n = DACX, Xa, Xa) > D ACX Ko Xa) = A(X) (17-62) 
= DaX Xa Xia XX) (17-63) 


再 在 两 边 同 除 以 n(n 一 1), 可 得 
MOM Xas +, X, ) 1 L > h(X1,X>,° ne | X;) (17-64) 
此 式 等 价 于 PSE. 现 来 证 明 对 任意 的 Kn, A ggi, 此 结论 可 通过 先 给 定 一 个 
TTR, 然后 同等 机 会 地 考虑 它 的 所 有 (& - 1) 元 子 集 而 得 到 。 对 于 每 一 个 元 子 集 ，g" 之 
ge, Alb, 关于 从 n 个 元 素 中 均等 选取 的 所 有 元 子 集 取 平 均 后 , 不 等 式 仍然 成 立 。 口 
定理 17.6.4 令 








AP = (jee (17-65) 
k 
则 
ff (17-66) 
证 明 : 由 恒等式 I(X(S); XX(S'))=h(X(S)) -—A(X(S) | X(S)) REF 17.6.1 和 定理 
17.6.3, 可 得 到 该 定理 的 结论 。 Cl 


17.7 ”和 炳 与 费 希 尔 信息 


众所周知 , 随机 变量 的 微分 箭 是 用 来 描述 性 复杂 度 的 一 个 度量 ,而 费 希 尔 信息 度量 的 是 估计 
一 个 分 布 参数 时 的 最 小 误差 。 在 本 节 中 , 我 们 将 讨论 这 两 个 基础 量 之 间 的 关系 , HIS 
RASH. 
设 X 是 密度 函数 为 F(z) 的 随机 变量 。 引 和 人 一 个 位 置 参 数 6, 并 以 参数 形式 将 密度 函数 表示 
为 f(z -9), 那么 关于 6 的 费 希 尔 信息 (11.10 节 ) 为 
J(0) = | fla - OE Inf(x — 0) | dz (17-67) 
在 上 式 中 , 关于 z 的 微分 等 价 于 关于 9 的 微分 , 因而 , 可 将 费 希 尔 信息 改写 成 
JOO = 人 ple 0) Zina - 0) ] de 
(17-68) 
= | f(a) |x inf(z) | dz 


上 式 也 可 改写 成 
J(X) = F fe [ef] a (17-69) 
f(x) 


我 们 称 其 为 关于 X 的 分 布 的 党 希 尔 信息 。 注 意 , RUT, 也 是 概率 密度 函数 的 一 个 函数 。 
费 希 尔 信息 的 重要 性 由 如 下 定理 给 出 。 





Nn 


384 第 17 章 





定理 17.7.1( 定 理 11.10.1;Cramér-Rao RFX) 参数 9 的 任何 无 偏 估 计量 本 (六) 的 均 方 误 
差 的 下 界 为 费 项 尔 信息 的 倒数 ， 即 : 


var TYE 7 gy (17-70) 


FERRERIA RERE. 
定理 17.7.2(de Bruijn WFA: A5 EAEE) 设 X 为 任 一 随机 变量 ， 其 密度 函数 为 
f(z), 且 方 着 有 限 。 令 ZZ 是 与 XX 独立 的 正 态 分 布 的 随机 变量 , 均值 为 0, 方差 为 1。 则 


oh .(X+VEZ) =F )(X +12) (17-71) 
HPA ERP BAA? RAE e。 特别 地 ， 如 果 当 1->0 时 极限 存在 ， 则 
Ph (x +12) | =1)(x) (17-72) 
t ;=0 2 


证 明 : 令 立 =X+VIZ, W Y, 的 密度 函数 为 














_ 人 1 OÝ i 
go) = | fa) era de (17-73) 
那么 
a =” aj 1 Q 
2go f raog] Fe | (17-74) 
=” eee o} (yz 1 2 
=| Ax) He + Ja Jax (17-75) 
通过 计算 , 又 有 l 
pao) = S fla) = glee ar (17-76) 
-x Oy] 
=| f(x) zl- e Zt jaz (17-77) 
且 
Poa) = F a) = 5l- oae 3 |dz (17-78) 
— 1 一 Q-a” Cy- x)? (y-a) 
=| zl- fe 2 十 2 e 2: Jez (17-79) 
所 以 ， 
Fay) = spe) (17-80) 
利用 这 个 关系 式 可 以 计算 得 到 Y, HONE, 而 Y, HA 
h(Y) = 一 | glng(y)dy (17-81) 
到 微分 , 可 得 
Fadl Y,) =--| Fad ydy - E Jal ying. (y)dy (17-82) 
oo co 2 
~ 2)" eddy -| Sie (ing(y)dy (17-83) 


由 于 [&.(y)dy = 1, 故 上 式 中 第 一 项 为 零 。 第 二 项 由 分 部 积分 可 得 
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Juv) =- 4? giy ngo] + $f [2m] Qe (17-84) 


K(17-84) AHS I(Y,)o Blk, MIRAE TEASE (17-84) PA — WWE, BUA TE LET 
的 证 明 。 可 以 将 第 一 项 改写 成 
ag,(y) 


,( 
2g D ng, (y) = -2 Es [2V g) gy) | (17-85) 





dy 
在 上 式 中 , 对 第 一 个 因子 的 平方 就 是 费 希 尔 信息 。 因 此 , 4yr ton, 第 一 个 因子 必定 有 界 。 
由 于 当 20 时，zlnz 一 0, 并 且 当 y 一 土 co 时 上 (>y) 一 0, 则 第 二 个 因子 趋 于 0。 所 以 , 式 (17-84) 
中 第 一 项 的 极限 均 为 0, 从 而 定理 获 证 。 在 证 明 式 (17-74), 式 (17-76), 式 (17-78) 和 式 (17-82) 的 
过 程 中 , 积分 和 微分 符号 交换 ,严格 的 证 明 需 要 用 到 控制 收敛 定理 和 中 值 定理 ; 细节 可 参见 
. Barron[ 30]. 口 
AFA AT VATE RAR AN SK, 而 它 可 给 出 相互 独立 的 随机 变量 和 的 炳 的 下 界 估计 。 
定理 17.7.3( 炉 畴 不 等 式 ) RXV ABARTH n 维 随机 向 量 , 它们 的 密度 函数 已 知 ， 则 
gay) 2400 +24) (17-86) 
PATHE AE AGR— FH Stam[ 505] 和 Blachman[61] 给 出 该 定理 证 明 方法 的 基本 步骤 , 17.8 节 
会 讲述 另 一 个 不 同 的 证 明 方 法 。 
Stam Wt Hi FEAR FR AY WE AE TRDE. Sn =1,K,=X+VfQ)2Z,,Y,=Y+ 
Vgl) Z, 其 中 Zi MZ, 为 相互 独立 且 服 从 MN(0,1) 的 随机 变量 。 若 定义 
F228(X) 4 22h(Y,) 
s(t) = SOR) (17-87) 
则 痛 寡 不 等 式 简 化 为 只 需 证 明 *(0) 委 1 即 可 。 如 果 当 root, f(t) OH g(t) >, 那么 容易 
证 明 s(co)=1。 另 外 , 对 于 20, WRA (2) S0, 则 可 得 s(O)<1, MAE s (O20 成 立 , 需 
要 适当 的 选取 函数 f(t) 和 g(t), 并 且 需 要 应 用 定理 17.7.2 的 结论 , 以 及 利用 费 希 尔 信息 的 卷 积 
不 等 式 ， 





1 1 1 
TAD JO IY) (17-88) 
通过 归纳 , AERTS AT UE DARE, 其 细致 的 讨论 请 参见 Staml 505] 和 Blachman[ 61] 合 
写 的 论文 。 


17.8 炳 寡 不 等 式 与 布 伦 ~ 闵可夫 斯 基 不 等 式 


对 于 两 个 独立 随机 向 量 和 的 微分 炮 , REN SF A SL HT Fo 
在 本 节 中 , 我 们 将 重 提 和 概述 关于 箭 寡 不 等 式 的 另 一 个 证 明 。 同 时 , 将 展示 如 何 利用 共同 的 证 明 
FETE AAR ERSE - 闵可夫 斯 基 不 等 式 是 密切 相关 的 。 

对 于 1 维 情形 , 可 以 将 箭 等 不等式 改写 成 另外 的 形式 以 强调 它 与 正 态 分 布 之 间 存 在 的 关系 。 
设 六 和 YY 是 相互 独立 的 随机 变量 , 其 密度 函数 均 已 知 。 并 令 X 和 了 为 两 个 独立 的 正 态 分 布 , 且 
它们 的 炉 分 别 与 对 应 的 X 与 Y 相同 。 于 是 , 270 = 270 = (2re)o。 类 似 地 ， A 20 = 
(Qme)oy. lk, 由 于 X MY AHA, MRSA US Mm 

228(0X+ D> (Qne) (oy + oy) = VPROTY (17-89) 


这 样 , RATT RGR SAN— THRE. 


GA 
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定理 17.8.1( 炳 辕 不 等 式 的 新 陈述 ) 对 于 两 个 独立 的 随机 变量 X HY, 
h(X+Y)>h(X +Y) (17-90) 
其 中 名 与 Y 为 相互 独立 的 正 态 分 布 的 随机 变量 , 且 满 足 h(X’)=h(X) 和 h(Y )=h(Y)。 

PARTIRSE - 闵可夫 斯 基 不 等 式 具 有 惊人 的 相似 , 后 者 给 出 的 是 关于 集合 和 的 体 
积 的 界 估 计 。 

定义 ”两 个 集合 A,BCR* 的 集合 和 A+B 定义 为 集合 {x+y:XEA,yE BI。 

例 17.8.1 以 原点 为 球 心 ,半径 为 1 的 两 个 球体 的 集合 怡 为 以 原点 为 球 心 半径 为 2 的 球体 。 

定理 17.8.2( 布 伦 - 闵可夫 斯 基 不 等 式 ) 集合 A 和 B 的 集合 和 的 体积 不 小 于 分 别 与 A PB 
体积 相同 的 两 个 球体 A 和 B 的 集合 和 的 体积 , BP: . 

V(A+B)>V(A +B’) (17-91) 
其 中 A' 和 B' 是 以 原点 为 球 心 且 满足 V(A')= V(A) 和 V(B’)=V(B) 的 两 个 球体 。 

上 述 两 个 定理 的 类 似 最 先 在 [104] 中 指出 。 而 Dembol 162] 和 Lieb 受到 加 强 形式 的 杨 氏 不 等 
式 的 启发 , 给 出 了 一 个 共同 的 证 明 方 法 。 辣 样 的 证 明 方 法 也 可 用 来 证 明 是 炉 棒 不 等 式 和 布 伦 - 
闵可夫 斯 基 不 等 式 的 特殊 情形 的 一 类 不 等 式 。 为 叙述 这 个 共同 的 证 明 方 法 , 先 准 备 几 个 定义 。 

定义 设 f 和 8g 为 R* 上 的 两 个 密度 函数 , 记 fx g 表示 两 密度 函数 的 卷 积 。 定 义 密度 函数 
£ 的 范 数 为 





1 
lel, = (ffar) (17-92) 
引 理 17.8.1( 加 强 的 杨 氏 不 等 式 ) ”对 于 两 个 任意 密度 函数 f 和 g AR" E, 
Isrel (SEV isl al, (17-93) 
其 中 
Litt 
r p 十 q 1 (17-94) 
A 
1 
_ pe 1 t_ _ 
C, yt pt po (17-95) 
证 明 : 这 个 不 等 式 的 证 明 过 程 相当 复杂 ; 详细 的 讨论 可 参见 [38] 和 [73]。 o 


FR Rie LE 
定义 or Wr Renyi BAL. X)ELA 





h, (X) = Tiog| [ f(x) de | (17-96) 
其 中 0<r<%, Al, MER r->1 时 的 极限 , RIBAS R BK, 
A(X) = M(X) =- f(x)ogf(z)dz (17-97) 
如 果 取 r 一 0 时 的 极限 , 则 是 支撑 集 的 体积 的 对 数 ， 
ho(X)=log(u{z: f(r) >0}) (17-98) 


FE, 零 阶 Renyi HTUS LSE BM HERERO. MER A, 给 出 定理 
8.2.2 描述 的 “有 效 ” 支 撑 集 的 尺寸 的 对 数值 。 下 面 叙述 关于 Renyi WKAR- EMEX. 
定义 r 阶 Renyi WR V(X) 定 义 为 
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as] 和， 0<r<o, rl +h =] 
V,(X) = exp| Zr% | ， r=1 . (17-99) 


u(iz:f(x) >07 r=0 
EH 17.8.3 ”对 两 个 独立 的 随机 变量 X 和 了 及 任意 的 0 过 rr< coco, 0 委 ) 魏 1, 有 
log V,(X + Y)2alogV,(X) + (1-A)logV,CY) + H(A) 


+itr[ H(A ) H(z) ] (17-100) 


其 中 Py Pa’ HOA = ~ Alloga (1-2)log(1— A) 0 
证 明 : 在 杨 氏 不 等 式 (17-93) 两 边 同 时 取 对 数 , 可 得 
PlogV,(X+ ¥) 2 Frog V,(X) + Blog V, (Y) + logC, 
— logC, ~ logC, (17-101) 
令 X=r’/p', 并 利用 式 (17-94), WB 1-A=r'/q', 2p=r GOGCD。 
于 是 式 (17-101) 变 为 
log V,(X + Y)>A logV,(X) + (1-A)logV,(Y) + Flogr — logr’ 


r 





, 


r r , r r , 
一 一 ] 十 一 ] 一 一 ] 十 一 ] 17-102 
p cep +s ogp — Gloag + logg ( 02) 


= AlogV,(X) + (1-A )logV,(Y) 
+ Z logr — (A+1-A)logr’ 
-Slogp+ Alogp’ -7 loga + (1 -= A) loga’ (17-103) 


= AlogV,(X) + (1 -à )log V,( Y) + Ss logr + H(A) 











六 十 和 (1 一 7) r 
r-1 log ACL = 9) 
+Q-ajyd-r) r 
-og Sade (17-104) 
= AlogV,(X) + (1-A)logV,(Y) + HQ) 
ltr r+AQ-r) r 
+ [Al i+? )-H(;2-)| (17-105) 
在 这 里 , 最 后 一 步 省 略 了 具体 的 代数 运算 。 口 


由 此 可 知 , 布 伦 - 闵可夫 斯 基 不 等 式 和 箭 寡 不 等 式 均 可 作为 该 定理 的 特例 而 得 到 。 
。 WERF. r>1 时, 取 式 (17-100) 的 极限 , 并 令 
_ VX) 

Vi(X)+ Vi(Y) 





A (17-106) 


即 可 得 到 
V(X + Y)>VI(X)+ Vi(Y) (17-107) 


IE BD RFE A SSK 
。 布 伦 - 闵可夫 斯 基 不 等 式 。 类 似 地 , $ r 一 0, 并 选取 


ON 
~ 
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V V(X) 
A= 17- 
J V(X) + VC) (17-108) 
可 得 
V Vo X+ YSV VCX)+W VOY) (17-109) 


现在 , 令 A 是 XX 的 支撑 集 ，B 是 Y 的 支撑 集 。 那 么 A + B 为 X+Y 的 支撑 集 , 于 是 , 式 
(17-109) 可 以 简化 为 


[uC(A+ BEA( A +[u(B) I» (17-110) 

此 即 布 伦 - 闵可夫 斯 基 不 等 式 。 
这 个 一 般 化 的 定理 将 箭 宕 不 等 式 和 布 伦 - 闵可夫 斯 基 不 等 式 统一 起 来 , 同时 , 对 于 引入 介 于 
两 者 之 间 的 新 不 等 式 也 起 到 积极 的 作用 。 这 个 深 一 层 的 意义 加 强 了 暗 寡 和 体积 之 间 的 相似 之 处 。 


17.9 有 关 行 列 式 的 不 等 式 


在 本 章 的 余下 几 节 中 , 假定 K 为 非 负 定 对 称 的 zxz RE, WIKIA K 的 行列 式 。 
先 来 证 明 由 樊 验 [199] 给 出 的 信息 论 结论 。 
定理 17.9.1 log| 开 | 是 关于 天 的 四 函数 。 
WEAR: 设 X AX, 为 n 维 正 态 分 布 X; 一 入 (0,K;) ,i=1,2 。 对 某 个 0 委 ) 委 1, 令 随 机 变量 
6 的 分 布 为 
Pri@=1}=Aa (17-111) 
Prif=2}=1-A (17-112) 
假设 9,X FLX, 相互 独立 , 并 令 Z= Xo, 则 可 知 ZZ 的 协 方差 矩阵 为 Kz = XK1+ (1 一 4)K2。 虽 然 
如 此 , Z 已 不 是 多 元 正 态 分 布 了 。 先 利用 定理 17.2.3, 然后 由 定理 17.2.1, 可 得 


六 log(2xe)"1MKi +(1-A)Ky|>h(Z) (17-113) 
宇 h (Z| 6) (17-114) 
一 从 二 log(2xe)" |K,| 


+ (1-A)log(2ne)"| Ko | 
于 是 ， 
|AK, + (1 -å)K;| >| Kıl] K211 (17-115) 
此 即 要 证 的 结论 。 口 
利用 信息 论 的 方法 [128] 可 以 证 明 如 下 的 阿达 马 不 等 式 。 . 
定理 17.9.2( 阿 达 马 ) |K| 志 [Ks, SARS K;=0,i 4j 等 号 成 立 。 
证 明 : 7 X~N(O,K), w 
log(2re)"IK | =h(X X2 X LEAX) = >» Flos 2re | K; | 


(17-116) 
当 且 仅 当 Xi,X2，…,X, 相互 独立 , 即 Ky =0,i 天 7 等 号 成 立 。 口 
下 面 证 明 由 Szasz[ 391] 得 到 的 阿达 马 不 等 式 的 推广 形式 。 设 K(il,is，…, 访 ) 表 示 由 的 下 
标 为 富 ,i,，…, 妈 的 行 和 列 上 的 元 素 构 成 的 Xk ETHE. 
定理 17.9.3(Szasz) wR K 为 n Xn 的 正定 阵 , P, 表示 K 的 所 有 大 级 主子 式 的 乘积 ， 即 ， 
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P= UD | Kinin) | (17-117) 
al a 
A _1 
PSP, SPC, >: SP, (17-118) 
证 明 : 设 X~AN(0,K)。 利 用 恒等式 al”? = L logP, + L log2me 及 定理 17.6.1, 立即 
2n(? -| 
可 得 该 定理 。 口 
我 们 也 可 证 得 一 个 相关 的 定理 。 
定理 17.9.4 KK AnxXn ERM, > 
si” = rescore | Kii,iz, sie) | + (17-119) 
则 
Tr(K)= SPSS SSS = K|? (17-120) 
证 明 : 由 恒等式 26? = (2xe)S4" BRr=2, 然后 利用 定理 17.6.1, 立即 可 得 。 口 
定理 17.9.5 设 
1. 
IKI YA 
Q = (IL | K(S*) 1] (17-121) 
则 
n 1 
JI) = QS SQ IK? (17-122) 
证 明 : 利用 定理 17.6.3 及 恒等式 
-4 IKI 
h(X(S)| X(S*)) = 5 log(2ne) KS) (17-123) 
立即 可 得 证 。 ð 
不 等 式 串 两 端 形成 的 不 等 式 Q,<Q, 可 以 改写 成 
IK | 之 Tle (17-124) 
其 中 
_ IK| 
of= TREO 2 i, n) (17-125) 


表示 由 剩余 的 所 有 XX; 线性 预测 产生 的 最 小 均 方 误差 。 于 是 , WR X1, X2, X, 是 联合 
正 态 分 布 , of 是 在 给 定 其 余 所 有 的 X; FX, 的 条 件 方差 。 将 这 点 与 阿达 马 不 等 式 联合 起 来 , 可 得 
到 关于 正定 阵 的 行列 式 的 上 界 和 下 界 估 计 : 


推论 
JIk: >i K i> litá (17-126) 
因此 , 协 方差 阵 的 行列 式 介 于 所 有 随机 变量 X 的 无 条 件 方差 开 , 的 乘积 与 所 有 条 件 方差 史 
的 乘积 之 间 。 


RP REAR EARN MER, 由 于 它 可 以 视 为 平稳 随机 过 程 的 协 方差 矩阵 而 显得 
REZ, ARH K 的 性 质 是 若 |i 一 j| = |r 一 s|, WE K; = K,,。 设 K, 表示 主子 阵 K(1， 
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2, yk) o WRORRE, ALAIN HERR, 容易 证 明 如 下 的 性 质 。 
定理 17.9.6 如 果 n Xn 正定 阵 KK AFLARE, g 
IK >K i>e |K, (7) >K, 14 (17-127) 
AIK, |/|K,-,|M k ŽA, ABR 
IK, | 








lim | K, |* = limp ge" (17-128) 
n n n-1 
证 明 : 设 (Xi,X,,…,X,) 一 和 (0,K,), WA 
ACX, [X11 X1) =h(X)—h(X!) (17-129) 
=F log(2ne) ee ) (17-130) 
k-1 

于 是 ，| Ki | /| K,- BAET OAC X,| 区- ,Xi) 的 单调 性 得 到 ， 而 
疡 ( XXX 一天 (XXX2) (17-131) 
Dh (Xp41| Xi X2, X1) (17-132) 


其 中 的 等 式 可 由 特 普 利 芯 很 设 得 到 , PEAN BRED BS. HH h(X|X-1， 
…,X1) 随 递减 , 则 可 知 移动 平均 


.1 1 
ge XL Xa) = k 


M- 


= 


i= 


ACX; | Xit X1) (17-133) 
也 随 递减 。 因 此 , 由 关系 式 h(X1, X230 Xa) =F log(2me)* | Ki| 可 知 式 (17-127) 成 立 。 口 
最 后 , 由 于 RAX, X, -1,…, 义 1) 为 递减 序列 , 则 其 极限 必然 存在 。 因 此 , 利用 Cesaro 均值 定 
理 , 可 得 
h(X,, Xz," Xn) 
lim a 


n=% 





= lim LST AX | XU 1 70s Xa) 
n= k=1 





= limh(X, Xn- X1) (17-134) 
若 将 上 式 转换 成 行列 式 , 可 得 
1_ IK,| 
lim| K, |» = limp 5 (17-135) 
EE 17.9.7 (闵可夫 斯 基 不 等 式 [390]) 
lK: + K,|'">|K,|'* 十 | Ka (17-136) 


证 明 : BX, 5X, 相互 独立 ， HX,~N(0,K;). 注意 到 X,+&~N(0,K,+ K2), HAR 
FEAR SA (EH 17.7.3), 可 得 


(2ne) | K, + K2|!" =2%h(X, + X2) (17-137) 
25h (X) + Tah (X) (17-138) 
= (2ne)|K,|1" + (2xe)| Ks” (17-139) 


17.10 ”关于 行列 式 的 比值 的 不 等 式 


下 面 证 明 有 关 行 列 式 的 比值 的 一 类 相似 的 不 等 式 。 在 论述 下 一 个 定理 之 前 , 先 来 讨论 最 小 
均 方差 线性 预测 的 概念 。 如 果 (Xi ,XX,,…,X,) 一 和 (0,K,), BA, 我 们 知道 在 给 定 (Xi, Xa, 
Xo) F, X, 的 条 件 概率 密度 函数 是 一 维 正 态 分 布 , 且 其 均值 关于 X, Xs,…,X, -1 线性 变化 ， 
条 件 方差 是 oo REH oz 是 在 给 定 Xi,X2，…,X, -1 下 的 所 有 线性 估计 量 X, 的 均 方 误 差 下 (X。 
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- $, 中 的 最 小 者 。 
引 理 17.10.1 o% =|K,|//K,-110 
证 明 : 利用 X, MEESI ER 我 们 有 


Flog 2neo? = h(X, 1X1, X2, X-1) (17-140) 
=h(X1, Kays Xp) —h(Xy, Xp 50s Xs) (17-141) 
=F log(2ne)" | K,| - F log(2me)"“"1 Ky -1 (17-142) 
= -L log2nel K, | /| Ks-il (17-143)0 


由 下 面 定 理 可 得 , 所 有 可 能 的 协 方差 矩阵 {K, 的 全 体 cx ARME. RRA ERAN 
谱 密 度 估 计 中 出 现 过 。 

定理 17.10.1(Bergstrom[42]) log(|K,|/| K,- ) XF K, AY BR. 

WEAR: 由 于 log(|K,| /|K。，，|) 为 两 个 四 函数 的 差 , 所 以 定理 17.9.1 将 不 再 适用 。 令 Z= Xo， 
HH X,~N(0,S,), X~N(O,T,), Pri@=1} =A=1-Prid=2}, 且 假 设 Xi,Xs 和 9 相互 独立 。 
Z 的 协 方差 阵 K, 为 

K, =AS, + (1-A)T,, (17-144) 
从 而 , 该 定理 可 以 由 下 面 的 不 等 式 串 推出 : 


A A log(2ne)? | S,1/1 Sp pl + 1-2) Toe 2me)? | Ty | /Ty 


(a) 
= Mh(Xin Kin 1 Rin pti | X11199 Kin pl) 





+ (LAA)ACX 29 Kan i, X2,n-p+1| X2,19 9» X2,n— pl) (17-145) 

= 天 (DZ DZ Zn- ps9) (17-146) 

RZ DZ NB (17-147) 

<F log(2ne)? Re (17-148) 

其 中 (a) 由 A(X,» Xn- 1? 1X, n~ pel Xe" .° >Xn—p) = A(X X,) — ACK Xp TEH, (b) 4 
SEE FAD YESS BM, 而 (c) 可 以 由 定理 17.2.3 的 条 件 形式 得 到 。 口 


定理 17.10.2(Bergstrem[42]) |K,|/|K,_1| 关 于 K, AU BR. . 
证 明 : 再 次 利用 高 斯 型 随机 向 量 的 性 质 。 假 定 有 两 个 独立 的 n 维 高 斯 型 随机 向 量 和 一 
N(0,A,) MY~N (0,B,), 设 Z=X+Y。 于 是 
A +B, | @ 


L log2ne a Bah 12, 1 22," 21) (17-149) 
Sh(Z,| 2, 1,2 a) (17-150) 
RK, 十 万 | 和 和) (17-151) 
= E Flog 2neVar( X, + Y, | Xa -19 Xa -20 Xis Yais Yn-a0 Y0) ] (17-152) 


= E 4 logl2ne( Var( X, |X, 1, KX -20t X1) + Var ys YY *, Y1))] 


(17-153) 





4 lA, | | |B, | )) 
=E= 一 一 2 一 z 17-154 
E Flog (2ne( [A l + IB, -1l ( ) 
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|A,, | |B, | 
=F log (2ne( Ta] TA )) (17-155) 

其 中 

(a) 可 由 引 理 17.10.1 得 到 ， 

(b) 由 条 件 作 用 使 炳 减少 的 事实 得 到 ， 

(c) EAF ZAX AY 的 函数 ， 

(d) 由 于 在 给 定 Xi1,X2,… Xn- Yi Yous Yn- Fo Xa t Y, 是 高 斯 型 的 , Alt, 可 以 根 
HEAT HA EC MY AK, 

(e) 可 由 在 给 定 过 去 状态 Xi,X2,… Xa- Yis Yours Yn-1 Fo Xn 和 Y, 的 相互 独立 性 得 到 ， 

(f) 因为 对 于 一 组 联合 高 斯 型 随机 变量 , 条 件 方差 为 常数 , 即 独立 于 起 条 件 作 用 的 随机 变量 
( 引 理 17.10.1)。 


若 令 A=AS, B=AT, 则 可 得 到 
|AS, +AT, | LS es 





Tis fit al? [Seal Thal (17-156) 
此 即 说 明 |K,| /|K,_1 | 关于 K, 是 四 函数 。 然 而 ,对 于 p>2, 可 以 举 出 些 简单 的 例子 来 说 
明 |K,|/|K,_s| 关 于 K, 未 必 是 止 的 。 图 


less ee oe Ee HAET. 
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习题 


17.1 


正定 阵 之 和 。 对 于 任意 两 个 正定 阵 Ki 和 K, HIK + K,\=|K,\o 


17.2 ATAIRERAN RETEA. 对 任意 的 1 委 2 委 ”及 正定 阵 K = K(1,2,…,n), 证 明 








<É IK(i,pt+1,p+2,%,n) | (17-157) 


KGI KI a) S |K(pt+1,p+2,-",7) | 


17.3 行列 式 比值 的 西 性 。 对 于 正定 阵 K 及 Ko, 证 明 h(I K + Ko| /IK|) 关 于 KK 是 凸 的 。 
17.4 数据 处 理 不 等 式 。 假 设 随机 变量 Xi ,Xs ,Xs 与 X, 构成 马尔 可 夫 链 X> XXX, WE 
明 
1(X 3X3) + I(X2; Xa) SI (X1; X4) + I(X2; X3) (17-158) 
17.5 “马尔 可 夫 链 。 假 设 随 机 变量 X,Y,2Z 与 W 构成 如 下 马尔 可 夫 链 
X>Y—>(Z, W), Hl p(x, y,z,w) = plz) plylz) pl(z.wly) 
证 明 
I(X;Z)+I(X;W)<SI(X;Y)+I(Z;W) (17-159) 
历史 回顾 


香农 [472] 首 先 给 出 了 焙 寡 不 等 式 的 陈述 ,而 第 一 个 正式 的 证 明 是 由 Stam [505] 和 Blachman 


[61] 完 成 的 。 至 于 灶 寡 不 等 式 和 布 伦 - 闵可夫 斯 基 不 等 式 的 统一 证 明 ,可 参看 Dembo 等 [164]。 


本 章 中 的 大 部 分 矩阵 不 等 式 是 由 Cover 和 Thomas[ 118] AARRETTA. ARAR 


一 些 子 集 不 等 式 ， 可 参见 Han [270]。 
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Erlang distribution (RAR BAST Ai), 661 
error correcting code (44473), 205 
error detecting code 〈 检 错 码 ) 211 
error exponent (误差 指数 )，4，376，380，384，385， 
388，399，403 
estimation, xviii (fit), 255, 347, 392, 425, 508 
spectrum (W), 415 
estimator (44it#E), 39, 40, 52, 255, 392, 393, 395- 
397, 401, 402, 407, 417, 500, 663 
bias (fii), 393 
biased (A), 401 


consistent in probability ( 依 概率 一 致 )，393 
domination (控制 )，393 
efficient (有 效 )，396 
unbiased (Æ), 392, 393, 395-397, 399, 401, 
402, 407 
Euclidean distance 〈 欧 几 里 得 焉 离 KREN), 514 
Euclidean geometry 〈 欧 刀 里 得 几何 ) 378 
Euclidean space 《 欧 几 里 得 空间 )，538 
Euler’s constant ( 欧 拉 常 数 )，153，662 
exchangeable stocks (可 交换 的 股票 )，653 
expectation (期 望 ( 数 学 期 望 ))，14，167，281，306，321， 
328, 393, 447, 479, 617, 645, 647, 669, 670 
expected length (WKE), 104 
exponential distribution 《指数 分 布 )，256，661 
extension of channel (信道 的 扩展 )，193 
extension of code (编码 的 扩展 )，105 


F-distribution (F 分 布 )，661 
face vase illusion (面对面 花瓶 幻 觉 ) 505 
factorial (阶乘 ) 351, 353 
Stirling’ s approximation (斯 特 林 近 似 值 )，405 
fading (衰退 )，611 
fading channel (衰退 信道 )，291 
Fahn, P., xxi 
fair odds (公平 机 会 收益 率 )，159，164，487，488 
fair randomization 《公平 随机 化 )，627，629 
Fan, K., 679, 699 
Fano, R. M., 56, 158, 240, 699, 700, see 
also Shannon-Fano-Elias code 
Fano’s inequality (iAH), 13, 38, 39, 41, 44, 
52, 56, 206, 208, 221, 255, 268, 283, 539- 
541, 555, 576, 578, 590, 663 
FAX (传真 )，130 
FDMA (Frequency Division Multiple Access) (FDMA (%84) 
#4t)), 547, 548, 606 
Feder, M., 158, 462, 700, 709, 718 
Feder, T., 461 
feedback, xix (iR), 189, 193, 216, 218, 238, 280-284 
286-290, 509, 519, 593, 594, 610, 611 
discrete memoryless channel (离散 无 记忆 信道 ) 216 
Gaussian channel, xv 〈 高 斯 信道 )，280-289 
Feinstein, A., 240, 699, 700 
Feller, W., 182, 700 
Fermat's last theorem ( 费 马 最 后 定理 ) 486 
fingers (手指 )，143 
finite alphabet (有 限 字母 表 ) 220, 318, 344, 473, 474, 
645 
finitely often 《有 限 多 次 发 生 )，649 
finitely refutable (A PRET RABIN), 486 
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first order in the expononent (在 一 阶 指数 意义 下 )，63 
Fisher, R. A., 56, 700 
Fisher information, xviii, xx 〈 费 希 尔 信息 )，247，347， 
392, 394, 395, 397, 399, 401, 407, 657, 671, 
673, 674 
examples (fF), 401 
multiparameter (多 参数 ) 397 
Fitingof , B. M., 461, 700 
fixed rate block code ( 定 速率 分 组 码 ) 357 
flag (标识 )，61，442，460 
flow of information (信息 流 )，588，589 
flow of time (时 间 流 )，89 
flow of water (AKL), S11 
football (HARER), 390, 391 
Ford, L. R., 700 
Ford-Fulkerson theorem (Ford-Fulkerson E), 511, 512 
Forney, G. D., 240, 700 
Foschini, G. J., 611, 700 
Fourier transform ( 传 里 叶 变 换 )，271，415 
fractal (分 形 )，471 
Franaszek, P. A., xxi, xxii, 158, 700 
Frank-Wolfe algorithm (Frank-Wolfe 算法)，191 
French (法 文 )，606 
frequency (Æ), 168-170, 270, 274, 315, 404, 547 
Friedman, J. H., 693 
Fulkerson, D. R., 697, 700 
function (函数 )， 
concave (M), 26 
convex (4), 26 
functional (Æ), 161, 276, 313, 330 
future (AH), 93 


Gaarder, T., 593, 609, 700 
Gabor, D., 701 
Gács. P., 695, 701 
Gadsby, 168 
Gallager, R. G., xxiii, 215, 240, 299, 430, 461, 
609, 692, 701, 713, 715, 716 
Galois field theory (WMF MMB), 214 
gambling, xviii, xx (9, (8, KiE, FRE), 11, 13, 
159, 171-173, 175, 178, 181, 182, 488, 
507, 629 
universal (TRE), 487 
gambling and data compression 〈 博 弈 和 数据 压缩 )，171 
game《〈 比 赛 ， 游 戏 ， 博 弈 )，181，298，391，631 
20 questions (20 个 问题 游戏 )，6，120，121，143， 
145, 157, 237 
Hi-Lo ($R), 147 
mutual information (互信 息 )，298 


red and black 〈 红 与 黑 ) 167, 177 
Shannon guessing (香农 猜测 )，174 
stock market (股票 市 场 )，630 
game theory (游戏 理论 ) 132 
fundamental theorem (基本 定理 )，432 
game-theoretic optimality (游戏 -理论 最 优 性 )，132，619 
y (Euler’s constant) ( 欧 拉 常数 )，153，662 
Gamma distribution (工分 布 )，661 
gas (气体 )，34，409，411，412 
Gauss’slaw 〈 高 斯 定律 ) 548 
Gauss-Markov process (高 斯 -马尔 可 夫 过 程 )，417-420 
Gaussian, 252, 255, 258, 378, 389, 684, 685 
Gaussian channel, xv, xix (高 斯 信道 )，205，261-299， 
324, 513, 514, 519, 520, 544, 546, 686 
achievability (可 达 性 )，266 
AWGN (additive white Gaussian noise) (可 加 高 斯 白 品 
声 )，289 
bandlimited (带宽 有 限 ) 270-274 
broadcast, see broadcast channel, Gaussian (广播 ， 见 
广播 信道 ， 高 斯 ) 
capacity (容量 ) 264 
colored noise OB RF), 277 
converse (31), 268 
feedback 〈 反 馈 ) 280-289 
interference, see interference channel, Gaussian (干涉 )， 
with memory (有 记忆 )，277，280 
multiple access (A), sæ also multiple access channel, 
Gaussian 
parallel (并 联 ) 274-280, 292 
relay, see also relay channel, Gaussian (中 继 ， 参 见 中 继 
信道 ， 高 斯 ) 
Gaussian distribution (高 斯 分 布 )，see normal distribution 
Gaussian process (高 斯 过 程 ) 272, 279, 417 
Gaussian source (高 斯 信 源 )，311，336 
rate distortion function 〈 率 失真 函数 ) 311 
Gaussian stochastic process (高 斯 随机 过 程 )，315，416， 
417, 423 
Gelfand, I. M., 702 
Gelfand, S. I., 609, 610, 702 
Gemelos, G., xxi 
general multiterminal network (一 般 多 终端 网 络 )，587 
general theory of relativity (相关 性 的 一 般 理论 )，490 
generalized Lloyd algorithm (推广 的 Lloyd 算法 )，303 
generation of random variables (随机 变量 生成 )，134 
geodesic( 测 地 线 )，380 
geometric distribution (几何 分 布 )，405，444 
geometry (几何 )，9，301，367 
Euclidean，378 
geophysical applications (地 球 物理 学 应 用 ) 415 
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Gersho, A., 702 
Gibson, J. D., 702 
GIF 《可 交换 图 像 文件 )，443，462 
Gilbert, E. N., 158, 702 
Gill, J., xxiii 
Glavieux, A., 692 
Gödel’ s incompleteness theorem (Godel 不 完备 定理 ) 483 
Goldbach’s conjecture (可 德 巴赫 猜想 ) 486 
Goldberg, M., xxiii 
Goldman, S., 702 
Goldsmith, A. , 702 
Golomb, S. W., 702 
Goodell, K., xxiii 
Gopinath, R., xxi 
Gotham, 470, 550 
gradient search (梯度 搜索 )，191 
grammar 《语法 )，171 
Grant, A. J., 702 
graph (Ai, AA), 73, 78, 79, 97 
graph coloring 〈 图 着 色 ) 557 
gravestone (AHH), 55 
gravitation (万 有 引力 ) 490 
Gray, R. M., 610, 694, 695, 702, 703, 708 
greetings telegrams (慰问 电报 )，441 
Grenander, U., 703 
grouping rule 〈 分 组 规则 )，50 
growth rate, xix (HKF), 4, 159, 178, 180, 182, 615, 
613-656, 686 
chain rule (REN), 624, 650 
competitive optimality (竞争 最 优 性 ) 628 
convexity (14), 616, 650 
optimal (最 优 ) 615 
side information ( 边 信 息 )，622，650 
growth rate optimal (增长 率 最 优 的 ) 162, 613 
Grünbaum, B., 538, 703 
Guiasu, S., 703 
Gupta, V., xxi 
Gutman, M., 462, 700 
Gyorfi, L., 698 
gzip (gnu 压缩 ) 442 


Hadamard’ s inequality (阿达 马 不 等 式 )，279，680，681 
Hajek, B., 611, 699, 703 

halting (停止 )，484 

halting computation (停止 计算 )，466，486 

halting problem (停止 问题 )，483 

halting program 《停止 程序 )，473 

Hamming codes 〈 汉 明码 )，205，212-214 

Hamming distortion (AAKRE), 307, 308, 336, 337 


Hamming, R. V., 210, 703 

Han, T. S., xxi, 593, 609, 610, 668, 670, 687, 
689, 703, 717, 718 

handwriting (手写 体 ) 87 

Hart, P. E., 695, 698 

Hartley, R. V., 55, 703 

Hassanpour, N., xxi 

Hassibi, B., 693 

Hassner, M., 689 

HDTV, 560 

Hekstra, A. P., 609, 718 

Helstrom C. W., 703 

Hershkovits, Y., 703 

Hewlett-Packard, 643 

hidden Markov model (HMM) 〈 隐 马尔 可 夫 模 型 )，87，101 

high probability set (高 概率 集 ) 62 

histogram (直方 图 ， 和 矩形 图 ) 174 

historical notes，xv 《历史 回顾 ) 

HMM, see hidden Markov model (HMM) ( 隐 马 尔 可 夫 模 
型 ) 

Hochwald, B. M., 693 

Hocquenghem, P. A., 214, 703 

Holsinger, J. L., 704 

Honig, M. L., 704 

Hopcroft, J. E., 704 

Horibe, Y., 704 

horse race (#55), 5, 6, 11, 159-182, 622, 626 

Huffman code (#373), 103, 118-127, 129-131, 137, 
142, 145, 146, 149, 151, 155, 157, 357, 427, 
436, 460, 491, 492 

competitive optimality (竞争 最 优 性 )，158 
dyadic distribution (二 进 制 分 布 )，151 

Huffman, D. A., 158, 704 

Hui, J. Y., 704 

Humblet, P. A., 704 

hypothesis testing (假设 检验 )，1，4，11、355，375， 
380, 384, 389 

Bayesian, 384 
optimal (最 优 ) see Neyman-Pearson lemma 


i. i. d. (independent and identically distributed) source 
G. i d. (独立 同 分 布 ) 48H), 307, 318, 344, 
357 
identification capacity 〈 识 别 容 量 ) 610 
Thara, S., 704 
image 图像) 305 
distortion measure (失真 度量 ) 305 
entropy rate (43%), 171 
Kolmogorov complexity 〈 科 和 尔 莫 戈 罗 夫 复杂 度 ) 499, 
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505, 506 binary representation (二 进 制 表 示 )，469 
Immink, K. A. S., 704 descriptive complexity (HERE AE), 469 
incompressible sequence 〈 不 可 压缩 序列 ) 477, 479 integrability (FRE), 248 
independence bound on entropy (WAJAR), 31 interference, xix (FH), 3, 11, 273, 509, 511, 515, 
India, 441 518, 519, 527, 547, 588, 610 
indicator function (TERR), 194, 219, 486, 497, 503 interference channel (FHIR), 510, 518, 519, 610 
induction (H4), 95, 123, 127, 674 degraded (1844), 610 
inequalities, xviii-xx (FÆRA), 53, 207, 418, 657-687 Gaussian, 518, 519, 610 
inequality 〈 不 等 式 )， high interference (高 于 扰 ) 518 
arithmetic mean geometric mean (算术 平均 几何 平均 )， strong interference ( 强 干 扰 )，610 
669 interleaving (交错 )，611 
Brunn-Minkowski, see Brunn-Minkowski inequality internet (因特网 )，218 
Cauchy-Schwarz，393 intersymbol interference (符号 间 干 扰 )，94 
Chebyshev’s , 64 f intrinsic complexity 〈 内 在 复杂 度 )，464 
data processing 《数据 处 理 ) see data processing inequality investment (投资 )，4，9，11，159，614，619，623，636， 
determinant, see determinant inequalities (行列 式 ， 参见 655, 656 
行列 式 不 等 式 ) investor (REF), 619, 623, 627, 629, 633, 635 
entropy power (WF), irreducible Markov chain (不 可 约 马 尔 可 夫 链 )，xee Markov 
see entropy power inequality chain, irreducible 
Fano’ s, Ttakura-Saito distance (Itakura-Saito IERS), 305 
Hadamard’s, see Hadamard’ s inequality iterative decoding (和 迭代 译 码 )，215S 
information (信息 )，29，410，659 Iyengar, G., xxi 
Jensen’s, see Jensen’ s inequality 
Kraft, see Kraft inequality Jacobs, I. M., 719 
log sum (XIMI), see log sum inequality Jayant, N. S., 704 
Markov’s, see Markov’ s inequality Jaynes, E. T., 56, 416, 425, 704 
McMillan’ see McMillan’ s inequality Jelinek, F., xxiii, 158, 690, 704, 705 
subset, see subset inequalities 〈 子 集 ， 见 子 集 不 等 式 ) Jensen’s inequality (Jensen 不 等 式 )，28，32 ，41，42，44， 
Young’s, 676 49, 252, 253, 270, 318, 447, 453, 474, 585, 
Ziv’s, 450 618, 622, 657 
inference (W), 1, 3, 4, 463, 484 Johnson, R. W., 715 
infinite bandwidth (ARER), 273 joint AEP (联合 AEP), 202, 203, 267, 329, 520 
infinitely often 《无 穷 多 个 发 生 )，621 joint density (联合 密度 )，249 
information (信息 )，see also Fisher information, mutual joint distribution (KASA), 16, 23, 34, 51, 52, 71, 
information, self infor mation 228, 268, 307, 308, 323, 328, 343, 365, 402, 
information capacity (REAM), 207, 263, 274, 277 537, 539, 542, 550, 564, 565, 578, 586, 595, 
information channel capacity (信息 信道 容量 )，184 600, 602, 608 
information divergence (fA BRE), joint entropy (RAW), 16 
55 see also relative entropy joint source channel coding theorem (联合 信 源 信道 编码 定 
information for discrimination (信息 判别 )， 理 )，218 
55 see also relative entropy joint type (RAH), 499 
information rate distortion function 《信息 率 失 真 函 数 )， joint typicality (联合 典型 )，195，222，240 
306，307，329 jointly typical (联合 典型 的 ) 198-203, 227-230, 240, 
innovations (更 新 )，282 266, 267, 319, 327-329, 341, 343, 365, 366, 
input alphabet (输入 字母 表 ) 183, 209, 268 520, 553, 557, 559, 560, 575, 580 
input distribution (B¥A4}4i), 188, 227, 228, 278, jointly typical sequences 〈 联 合 典型 序列 ) 520 
335, 430, 431, 532, 544, 546, 591 jointly typical set CRA PLBE), 227, 228, 319, 327 
instantaneous code (HMR), see code, instantaneous Jozsa, R, 705 


integer (整数 ) JPEG, 130 
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Julian, D., xxi 
Justesen, J., 215, 705 


Kac, M., 443, 705 
Kac’ s lemma (Kac 引 理 ) 444 
Kailath, T., 705 
Karlin, S., 705 
Karush, J., 158, 705 
Kaul, A., xxiii 
Kawabata, B., xxiii 
Keegel, J. C., 707 
Kelly, J., 182, 655, 705 
Kelly, F. P., 705 
Kelly gambling (Kelly 博弈 ) 182, 626 
Kemperman, J. H. B., 408, 705 
Kendall, M., 705 
keyboard (键盘 ) 480, 482 
Khairat, M. A., 707 
Khinchin, A. Y., 705 
Kieffer, J. C., 69, 705, 720 
Kim, Y. H., xxi, 299, 705 
Kimber, D., xxiii 
kinetic energy 《动能 ) 409 
King, R., 182, 696 
Knuth, D. E., 153, 705 
Kobayashi, K., 610, 703 
Kolmogorov, A. N., 3, 345, 417, 463, 507, 702, 
706 
Kolmogorov complexity, xv, xvii, xix (|KRARF RE 
杂 度 ) 1, 3, 4, 10-12, 428, 466, 463-508, 686 
conditional (条 件 的 ) 467 
and entropy (#8), 473, 502 
of integers (整数 的 )，475 
lower bound (下 界 )，469，502 
universal probability( 普 适 概 率 )，490 
upper bound (EF), 501 
Kolmogorov structure function( 科 尔 莫 戈 罗 夫 结构 函数 )， 
496, 503, 507 
Kolmogorov sufficient statistic (RRP REDATE), 
496, 497, 508 
Kolmogorov’ s inequality ( 科 尔 莫 戌 罗 夫 不 等 式 )，626 
Kontoyiannis, Y., xxi 
Korner, J., 241, 325, 347, 358, 408, 609, 610, 
690, 697, 698, 701, 706 
Kotel’ nikov, V. A., 706 
Kraft, L. G., 158, 706 
Kraft inequality (Kraft FA), 103, 107-110, 112, 
113, 116-118, 127, 138, 141, 143, 158, 473, 
484, 494 


Krichevsky, R. E., 706 

Kuhn-Tucker conditions (HEA - 塔 克 条 件 ) 164, 177, 
191，314，331，617，618，621，622 

Kulkarni, S. R., 698, 707, 718 

Kullback, J. H., 707 

Kullback, S., xix, 55, 408, 707 

Kullback Leibler distance (Kullback Leibler FEBS), 20, 55, 
251, see also relative entropy 


Lı distance (£, IER), 369 
Lagrange multipliers (RUBIA FF), 110, 153, 161, 276, 
313, 330, 334, 335, 421 
Laird, N. M., 698 
Lamping, J., xxi 
Landau, H. J., 272, 299, 707 
Landauer, R., 56, 691 
Langdon, G. G., 705, 707, 713 
Lapidoth, A., xxi, 707 (Lapidoth, A. ) 
Laplace, P. S., 488, 489 (Laplace, P. S.) 
Laplace distribution ( 拉 普 拉 斯 分 布 )，257，661 
Laplace estimate 〈 拉 普 拉 斯 估计 )，488 
large deviation theory (KRŽE), 4, 12, 357, 360 
Latané, H. A., 182, 655, 707 
Lavenberg, S., xxiii 
law of large numbers (KØGE), 57, 199, 245, 267, 
319, 326, 355-357, 361, 403, 477, 479, 520, 
522, 615 
incompressible sequences (不 可 压缩 序列 ) 477, 502, 
method of types (型 方法 ) 355 
weak law (BÆ), 57, 58, 65, 196, 245, 361, 
380, 479 
lecturer (HEIN), 561 
Lee, E. A., 707 
Leech, J., 707 
Lehmann, E. L., 56, 707 
Leibler, R. A., 55, 707 
Lempel, A., 428, 442, 462, 707, 721 see also Lempel- 
Ziv coding 
Lempel-Ziv 
fixed database 〈 固 定数 据 库 ) 459 
infinite dictionary 〈 无 限 字典 ) 458 
sliding window (滑动 窗 ) 443 
tree structured 〈 树 结构 的 ) 448 
Lempel-Ziv algorithm, xxiii (Lempel-Ziv 算法 ) 441 
Lempel-Ziv coding (Lempel-Ziv 编码 ) 440-456, 
Lempel-Ziv compression (Lempel-Ziv 压缩 ) 360 
Lempel-Ziv parsing (Lempel-Ziv 分 解 )，427 
letter (74%), 105, 168-171, 174, 175, 209, 210, 224, 
226, 233 ` 
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Leung, C. S. K., 593, 609, 610, 696, 711 

Levin, L. A., 507, 707 

Levinson algorithm (Levinson 算法 )，419 

Levy’ s martingale convergence theorem (Levy Bukae 
HB), 647 

lexicographic order (字典 序 ) 327, 472 

Li, M., 508, 707 

Liao, H., 10, 609, 708 

liar paradox (Liar #8), 483 

Lieb, E. J., 693 

likelihood ({HŻR), 20, 365, 377, 404, 482, 508 

likelihood ratio (RHE), 482 

likelihood ratio test〈 似 然 比 检验 ) 377, 378, 385, 389 

Lin, S., 708 

Lind, D., 708 

Linde, Y., 708 

Linder, T., 708 

Lindley, D. , 708 

linear algebra (线性 代数 )，211 

linear code (线性 码 )，214 

linear inequalities (线性 不 等 式 )，534 

linear predictive coding (线性 预测 编码 )，416 

list decoding 《清单 译 码 )，517，575 

Liversidge, A. 708 

Lloyd, S. P., 708 

Lloyd aglorithm (Lloyd 算法 )，303 

local realism 〈 局 部 实现 ) 56 

logarithm (对 数 ) 

base of ( 底 )，14 

lognormal distribution (对 数 正 态 分 布 )，662 

log likelihood (对 数 似 然 )，65，67，405 

log-optimal portfolio 〈 对 数 最 优 投资 组 合 ) 616-624, 626- 
629, 649, 653, 654, 656 

competitive optimality (SPRE), 627, 651 

log sum inequality (对 数 和 不 等 式 )，31-33，44 

Longo, G., 697 

Lotto, 178 

Louchard, G., 708 

Lovasz, L., 226, 241, 708 

low density parity check (LDPC) codes ( 低 密度 奇偶 校 验 
#3), 215 

Lucky, R. W., 170, 171, 708 

Lugosi, G., 698, 707, 708 

LZ77, 441 

LZ78, 441 


MacKay, D. J. C., 215, 708, 709 
macrostate (ZIRE), 55, 409, 411, 412 
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Madhow, U., 704 
magnetic recording 〈 磁 记录 ) 94, 101, 105, 158 
Malone, D., 175 
Mandelbrot set (Mandelbrot Æ), 471 
Marcus, B., 158, 708 
margin (WER), 181 
marginal distribution (边际 分 布 )，297，333 
Markov approximation (马尔 可 夫 近 似 )，169，646 
Markov chain (马尔 可 夫 链 ， 马 氏 链 )，35，36，39，40， 
47, 52, 71-100, 144, 206, 258, 294, 295, 423, 
458, 470, 497, 499, 578-580, 584, 659, 687 
aperiodic〈 非 周期 的 )，72，78 
functions of (函数 ) 84 
irreducible (AAMAS H), 72, 78, 98 
stationary distribution (平稳 分 布 )，73 
time invariant (时 间 不 变量 )，72 
time-reversible (时 间 可 逆 的 )，81 
Markov fields 《马尔 可 夫 场 )，35 
Markov lemma 《马尔 可 夫 引 理 )，586 
Markov process (马尔 可 夫 过 程 )，87，100，144，422， 
428, 437, see also Gauss-Markov process 
Markov’ s inequality (马尔 可 夫 不 等 式 )，49，64，157， 
238, 392, 460, 621, 627, 648, 649 
Markowitz, H., 614 
Marks, R. J., 708 
Marshall, A., 708, 709 
Martian, 143 
Martin-Léf, P., 507, 709 
martingale (#4), 647 
martingale convergence theorem 〈 蒜 收敛 定理 ) 626 
Marton, K., 609, 610, 706, 709 
Marzetta, T. L., 693 
Massey, J. L., 709 
mathematics, xvi (数学 ) 
Mathis, C., xxi 
Mathys, P., 709 
matrix (4EB), 88, 95, 99, 200, 212, 239, 337, 338, 
340, 342, 397, 432, 458, 657, 681, 682, 687 
channel transition (信道 转移 )，190 
doubly stochastic 〈 双 随机 ) ，190 
parity check (奇偶 校 验 )，211 
permutation (置换 )，88 
probability transition (概率 转移 )，72 
trace ($15), 278 
transition ($4), 77, 88 
matrix inequalities 《矩阵 不 等 式 )，687 
max-flow min-cut 《最 大 流 最 小 割 )，512 
maximal probability of error (最 大 误差 概率 )，204，207， 
264，268 
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maximum a posteriori (最 大 后 验 )，388 
maximum entropy, xviii (RAH), 51, 92, 96, 255, 
258, 263, 282, 289, 375, 409, 412-415, 417, 
420-425, 451 
conditional limit theorem 《条 件 极限 定理 )，371 
prediction error 《预测 误差 )，423 
spectral density《 谱 密度 )，419，421 
maximum entropy distribution (RARA), 30, 364, 
375, 409, 410, 412-414 
maximum entropy graph (EXIF), 97 
maximum entropy process (RAHI), 419, 422 
maximum likelihood (最 大 似 然 )，201，231，500 
maximum likelihood decoding 〈 最 大 似 然 译 码 ) 231 
maximum likelihood estimation (最 大 似 然 估计 ) ，404 
Maxwell-Boltzmann distribution (麦克 斯 韦 - 玻 尔 兹 曼 分 布 )， 
409，662 
Maxwell’s demon (麦克 斯 韦 妖 )，507 
maze (迷宫 )，97 
Mazo, J., xxiii 
McDonald, R. A., 345, 709 
McEliece, R. J., 696, 697, 709 
McLaughlin, S. W., 718 
McMillan, B., 69, 158, 709, see also 
Shannon-McMillan-Breiman theorem 
McMillan’ s inequality (McMillan 不 等 式 )，141 
MDL (minimum description length) (最 小 描述 长 度 )，501 
mean value theorem (均值 定理 )，247 
mean-variance theory ( 均 方差 理论 )，614 
measure theory, xx (WEW) 
median 〈 中 位 数 ) 257 
medical testing (EARR), 375 
Melsa, J. L., 702 
memoryless, 184, 216, 280, 513, 563, 572, 588, 593, 
610, see alsochannel, discrete memoryless 《无 记忆 
的 ， 参 见 信道 ， 离 散 无 记忆 ) 
merges (〈 兼 并 ) 149 
Merhav, N., 461, 462, 700, 709, 718, 721 
Merton, R. C., 709 
Messerschmitt, D. G., 707 
method of types, xv (型 方法 ) 347, 357, 361, 665 
metric (HEHE), 46 
microprocessor (ALIEZE), 468 
microstate 〈 微 观 状 态 )，$$，409，411 . 
MIMO (multiple-input multiple-output) (多 输入 多 输出 ， 
BRR), 611 
minimal sufficient statistic 〈 最 小 充分 统计 量 )，38 
minimax redundancy (最 小 最 大 见 余 )，456 
minimum description length (最 小 描述 长 度 (MDL)), 3, 
501, 508 


minimum distance (AX/MEBS), 213, 325, 332 
between convex sets (ARERI), 332 
relative entropy (FHXTHH), 367 
minimum variance (最 小 方差 )，396 
minimum weight (最 小 权重 )，212 
Minkowski, H., 710 
Mirsky, L., 710 
Mitchell, J. L., 711 
mixed strategy 〈 混 合 策略 ) 391 
mobile telephone (移动 电话 ) 607 
models of computation (计算 模型 )，464 
modem 〈 调 制 解 调 器 ) 273, 442 
modulation (Jail), 3, 263 
modulo 2 arithmetic (#2128), 211, 308, 596 
molecules (分 子 ) 409 
moments (#2), 255, 414, 614 
Mona Lisa, 471, 499 
money (RIX, BA), 160, 164, 171, 172, 176-178, 
487, 631, 634, see also wealth 
monkey (HEF), 480, 482, 504 
Moore, E. F., 158, 702 
Morgenstern, O., 710 
Morrell, M., xxiii 
Morse code 〈 莫 尔 斯 码 )，103，104 
Moy, S. C., 69, 710 
multipath (2 BE), 292, 611 
multiple access channel (SAIR), 10, 518, 524, 589, 
594, 609 
achievablity (可 达 性 ) 530 
binary erasure channel (二 元 擦 除 信道 )，527 
binary erasure multiple access channel (二 元 擦 除 多 接 人 信 
道 )，594 
binary multiplier channel (二 元 多 重信 道 )，527 
capacity region (容量 区 域 )，526 
convexity (同性)，534 
converse (WM), 538 
cooperative capacity (协作 容量 )，596 
correlated source (相关 信 源 )，593 
duality with Slepian-Wolf coding (与 Slepian-Wolf 编码 的 
对 偶 性 ) 558 
erasure channel (BRAIN), 529 
feedback (BW), 594 
Gaussian (FAH), 514, 598, 607 
independent BSC’ s (独立 二 元 对 称 ) 526 
multiplexing (多 路 技术 )，273，515，547 
multi-user information theory 〈 多 用 户 信息 论 ) see network 
information theory 
multivariate distributions (4704048), 411 
multivariate normal (多 元 正 态 分 布 )，249，254，287， 
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305, 315, 413, 417, 679 
music (HAR), 1, 428 
mutual ftnd〈 共 同 基金 )，653 
mutual information, xvii (H4#H), 12, 20, 159, 252, 
656, 686 
chain rule (AN), 24 
conditional (条 件 ) 45, 49 
continuous random variables 〈 连 续 随机 变量 ) 251 
non-negativity (JEMIE), 29 
properties 《性 质 )，43 
Myers, D. L., 718 


Nagaoka, H., 690 

Nahamoo, D., xxiii 

Narayan, P., 697, 707 

nats (A¢##), 14, 244, 255, 313 

Nayak, P. P., xxi 

Neal, R. M., 215, 708, 719 

nearest neighbor 〈 最 近邻 域 ) 303 

nearest neighbor decoding (最 近邻 域 译 码 )，3 

neighborhood (WIR), 361, 638 

Nelson, R., xxi 

network (W4), 11, 270, 273, 274, 509-511, 519, 
520, 587, 588, 592, 594 

network information theory, xv, xix (网 络 信息 论 )，3， 
10, 11, 509-611 

feedback (S), 593 

Neumann, J. von, 710 

Newton, I., xvii, 4 

Newtonian physics (牛顿 物理 学 ) 490 

Neyman, J., 710 


Neyman-Pearson lemma (Neyman-Pearson 3138), 376, 398 


Nielsen, M., 241, 710 
Nobel, A., xxiii 
noise, xvii, xix (WRF), 1, 3, 11, 183, 224, 234, 
237, 257, 261, 265, 272-274, 276-281, 289, 
291-293, 297-299, 324, 509, 513-516, 519, 
520, 533, 546, 548, 588 
colored (彩色 的 )，277 
noiseless channel (无 噪声 信道 )，8，558 
noisy typewriter 《有 了 噪声 的 打字 机 )，186 
Noll, P., 704 
nonnegative definite matrix (JEM ESI), 284, 285 
nonnegativity 〈 非 负 性 )， 
entropy (i), 15 
mutual information (互信 息 )，29 
relative entropy (#H%¢#%), 20, 29 
nonsense (ZEX), 464, 482, 504 
norm (4830), 297 


Euclidean 〈 欧 几 里 得 )，297 
normal distribution 〈 正 态 分 布 )，38，254，269，311， 
411, 414, 662, 675, see also Gaussian channel, 
Gaussian source 
generalized (广义 ) 662 
maximum entropy property (RAMEE), 254 
null space 〈 零 空间 )，211 
Nyquist, H., 270, 272, 710 


Occam’ s Razor (SA 5¢Hb#I7J), 1, 4, 463, 481, 488, 
490, 500 
odds (JL, Kk JL¥Æ), 11, 67, 159, 162-164, 176- 
180, 626, 645 
even (平等 )，159 
fair (公平 )，159,，167, 176 
subfair (次 公平 )，164，176 
superfair〈 超 公平 ) 164 
uniform (294]), 172 
uniform fair (均匀 公平 )，163 
Olkin, I., 708, 709 
Olshen, R. A., 693 
Q, xix, 484, 502 
Omura, J. K., 718, 710 
onion-peeling (FEA), 546 
Oppenheim, A., 710 
optical channel (光学 信道 )，101 
optimal code length (最 佳 码 长 )，148，149 
optimal decoding (最 优 译 码 )，231，514 
optimal doubling rate (最 优 双 倍率 )，162，165，166 


optimal portfolio《 最 优化 投资 组 合 )，613，626，629，652 


oracle (预言 家 )，485 

Ordentlich, E., xxi, xxiii, 656, 696, 710 
Orey, S., 69, 656, 710 

Orlitsky, A., xxi, xxiii, 241, 706, 710 
Ornstein, D. S., 710 

Oslick, M. , xxiii 

output alphabet 〈 输 出 字母 表 ) 143, 183 
Ozarow, L. H., 594, 609, 610, 711 


Pagels, H., 508, 711 
Papadias, C. B., 711 
Papadimitriou, C., 711 
paradox (〈 悖 论 ) 482 
Berry’ s, 483 
Epimenides liar (Epimenides Ht), 483 
St. Petersburg, 181 
parallel channels (并 联 信道 )，277，293 
parallel Gaussian source (并 联 高 斯 信 源 ) 314 
Pareto distribution 《 帕 雷 托 分 布 )，662 
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parity (奇偶 性 )，212-214 

parity check code (奇偶 校 验 码 )，211，214 

parity check matrix (奇偶 校 验 矩阵 )，211 

parsing (解析 )，441，448-450，452，455，456，458，459 

partial recursive functions (局 部 递归 孙 数 )，466 

partition (分 割 )，251 

Pasco, R., 158, 711 

past (过 去 (历史 ))，93 

Patterson, G. W., 149, 713 

Paulraj, A. J., 711 

Pearson, E. S., 710 

Peile, R. E., 702 

Pennebaker, W. B., 711 

Perez, A., 69, 711 

perihelion of Mercury (KE MJVEA A), 490 

periodogram (周期 图 ) 415 

permutation (置换 )，84，190，258 

permutation matrix 《置换 和 矩阵) ，88 

perpendicular bisector 〈 垂 直 平 分 线 ) 378 

perturbation 〈 微 扰 ， 扰 动 ) 674 

Phamdo, N., xxi 

philosopher’ s stone (哲学 家 的 宝石 ) 484 

philosophy of science (科学 哲学 )，4 

photographic film (照相 底片 )，293 

phrase 《词组 )，441-443，448，452 

physically degraded (物理 退化 的 )，564，568，571，573，610 

physics, xvi, xvii (物理 学 )，1，4，56，409，463，481 

x, 4 

picture on cover 《封面 图 画 )，471 

Pierce, J. R., 711 

pigeon ($F), 233 

Pinkston, J. T., 337, 711 

Pinsker, M. S., 299, 609, 610, 702, 711 

pitfalls (GRA), 483 

pixels (RH), 471 

pkzip (PK Ware 出 的 生成 ZIP 文件 的 压缩 软件 )，442 

Plotnik, E., 711 

Poisson distribution 〈 泊 松 分 布 )，293 

Pollak, H. O., 272, 299, 707, 715 

Pollard, D., 711 

Poltyrev, G. S., 712 

Polya’ s urn model (HAEARN), 90 

polynomial number of types 〈 多 项 式 级 数目 的 型 ) 355, 
357, 373 

Pombra, S., xxi 299, 695, 696, 712 

Poor, H. V., 705, 712 

portfolio (投资 组 合 ) 182, 613-654, 656 

portfolio strategy (投资 组 合 策略 )，620，629-631，634， 
636，643 


portfolio theory, xv (投资 组 合理 论 )，613 
positive definite matrix (IEP), 279, 686, 687 
Posner, E., 696 
power (功率 ) 84, 116, 142, 273, 293, 295, 297, 
298, 320, 324, 357, 415, 513-515, 517, 518, 
546-548, 606, 607, 610, 674 
power constraint (功率 约束 ) 261, 262-264, 266, 268, 
270, 274, 277, 278, 281, 289, 291, 292, 296, 
513, 547 
power spectral density (WRR EE), 272, 289, 415 
Pratt, F., 712 
prediction (预测 )，11 
prediction error (预测 误差 )，423 
prefix (AU), 106, 109, 110, 118, 124, 149, 150, 
443, 473 
prefix code (AFARS), 109, 110, 118, 148, 150 
principal minor (F), 680, 681 
prior (569%), 385, 388, 389, 435, 436 
Bayesian (JUHHT), 384 
Proakis, J., 692 
probability density (HERE), 243, 250, 420, 425 
probability mass function (WP PEAX), 5 
probability of error (误差 概率 ) 
Bayesian (HT), 385 
maximal (最 大 ) 195, 204 
probability simplex 〈 单 一 概率 ) 348, 359, 362, 378- 
380, 385, 386, 391, 408 
probability theory (HEHE), 1, 12 
probability transition matrix (WERE), 7, 72, 73, 
226, 524 
process (£), 183 
program length (JF KBE), 3, 463 
prolate spheroidal functions ( 椭 球 函数 )，272 
proportional betting (〈 按 比例 下 注 )，487 
proportional gambling ( 按 比例 下 注 )，162-164，173，182， 
619, 645 
punctuation (标点 )，168 
Pursley, M. B., 697, 703 
Pythagorean theorem 〈 毕 达 哥 拉 斯 定理 ) 367, 368 


quantization (量化 )，247，248，251，263，301-303，312， 
363 

quantum channel capacity (量子 信道 容量 )，56 

quantum data compression (量子 数据 压缩 )，56 

quantum information theory (量子 信息 论 )，11 241 

quantum mechanics ($F H), 11, 56, 241 

queen 《皇后 (扑克 有 牌 中 ))，80 


Rabiner, L. R., 712 
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race (赛跑 )，see horse race 
radio (ARES), 261, 270, 547, 560 
radium (#7), 257 
random box size 〈 随 机 盒 扩 寸 )，67 
random coding (随机 编码 )，3，201，204，230，324， 
565 
random number generation (随机 数 生成 ) 134 
random process 〈 随 机 过 程 ) 
Bernoulli (A334), 98 
random questions (随机 问题 )，53 
random variable (随机 变量 )，5，6，13，14，103 
Bernoulli ( 伯 努 利 )，53，63 
generation (生成 )，134，155 
random walk (随机 游 动 )，78 
randomization 《随机 化 )，627 
rank ( 秩 )，211，393 
Rao, C. R., 712 
Ratcliff, D., 697 
rate (BF, BOR, 3) 
achievable (FIA), see achievable rate 
entropy (#924), see entropy rate 
rate distortion, xv (BRA), 301-347, 582, 585, 586, 
596, 610, 686 
achievability (FIA), 306, 318 
Bernoulli source 〈 伯 努 利 信 源 ) 307, 336 
computation (计算 )，332 
converse (Hi), 316 
erasure distortion 《 擦 除 失真 )，338 
Gaussian source( 高 斯 信 源 )，310，311，325，336 
infinite distortion (无 限 失 真 )，336 
multivariate Gaussian source (多 元 高 斯 信 源 )，336 
operational definition (操作 型 定义 })，307 
parallel Gaussian source 〈 并 联 高 斯 信 源 ) 314 
Shannon lower bound (香农 下 界 ) 337 
with side information (RAMA EH), 580, 596 
squared error distortion (平方 误差 失真 )，310，338 
rate distortion code (AHS), 305, 316, 321, 324, 
325, 329, 341, 583 
optimal (最 优 的 ) 339 
rate distortion function ( 率 失 真 函 数 ) 306-308, 310, 
311, 313-316, 321, 327, 333, 334, 337-340, 
344, 596, 610 
convexity (tE), 316 
information (信息 )，307 
rate distortion region 〈 率 失真 区 域 )，306，586 
rate distortion theorem ( 率 失真 理论 ) 307, 310, 324, 
325, 336, 341, 583, 585 
rate distortion theory, 10, 301, 303, 307, 357 
rate region (RK), 535, 536, 557, 569, 592, 


593, 602-605, 608 
Rathie, P. N., 662, 718 
Raviv, J., 690 i 
Ray-Chaudhuri, D. K., 214, 693 
Rayleigh, G. G., 611, 702 
Rayleigh distribution 〈 瑞 利 分 布 ) 662 
rebalanced portfolio (恒定 特色 比例 投资 组 合 ) 613, 629- 
632, 634, 636, 638, 639, 643 
receiver (接收 器 ， 接 收 者 ) 183 
recurrence (递归 ， W), 91, 457, 459, 460 
recurrence time (递归 时 间 )，444，445 
recursion (H, WHR), 90, 95, 123, 469 
redistribution of wealth 〈 财 富 的 重 分 配 ) 82 
redundancy (CR, TERRE), 148, 171, 184, 210, 429, 
430, 435, 436, 456, 461, 462, 631 
minimax 〈 最 小 最 大 ) 429 
Reed, I. S., 214, 712 
Reed-Solomon codes (R-S#$), 214, 215 
Reiffen, B., 666, 719 
reinvest 〈 再 投资 )，181，615 
relative entropy, xvii, xix (AAS), 4, 9, 11, 12, 20, 
25, 30, 43, 52, 68, 81, 87, 112, 115, 151, 
252, 259, 305, 332, 333, 362, 366, 368, 369, 
378-384, 401, 421, 427, 429, 545, 658-660, 
665, 686, 
x? bound (x? F), 400 
asymmetry (不 对 称 ) 52 
bounds (ME), 663 
chain rule ( 链 式 法 则 )，2S 
convexity (#5), 33 
and Fisher information 〈 费 希 尔 信息 ) ，401 
Lı bound (L, FE), 398 
non-negativity (JEE), 29, 50 
properties (EM), 43 
relative entropy distance (XER), 82, 356, 433 
relative entropy neighborhood (AXAN RIR), 361 
relay channel (*P4k(#iH), 510, 516, 571, 572, 591, 
595, 610 
achievability (可 达 性 )，573 
capacity 《容量 )，573 
converse《〈 逆 定理 )，572 
degraded 〈 退 化) 571, 573, 591, 610 
feedback (it), 591 
Gaussian (高 斯 )，516 
physically degraded (物理 退化 )，571，573，591 
reversely degraded ( 反 退 化 )，575 
Renyi entropy (Renyi $), 676, 677 
Renyi entropy power (Renyi #44), 677 
reproduction points (F#4E At), 302 
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reverse water-filling (有 反 注 水 法 )，315，336，345 

Reza, F. M., 712 

Rice, S. O., 712 

Riemann integrability (#24) $R), 248 

Rimoldi, B., 702, 712 

risk-free asset (无 风险 资产 )，614 

Rissanen, J., 158, 420, 462, 508, 691, 707, 712, 
713 

Roche, J., xxi, xxiii 

rook ( (国际 象棋 ) 4), 80 

Roy, B., xxi 

Rubin, D. B., 698 

run length coding (游程 编码 ) 49 

Ryabko, B. Ya., 430, 461, 713 


saddlepoint (鞍点 ) 298 

Salehi, M., xxiii, 695, 696 

Salz, J., xxiii 

sample correlation (样本 相关 )，415 

sampling theorem (采样 定理 )，272 

Samuelson, P. A., 656, 709, 713 

sandwich argument (三 明治 论证 法 )，69，644，648 

Sanov. I. N., 408, 713 

Sanov’ s theorem (Sanov 定理 )，362，378，386，391， 
398, 403 

Sardinas, A. A., 149, 713 

Sardinas-Patterson test (Sardinas-Patterson 测试 ) 149 

satellite (HH), 215, 261, 509, 515, 565 

Sato, H., 610, 713 

Savari, S. A., 713 

Sayood, K., 713 

Schafer, R. W., 712 

Schalkwijk, J. P. M., 609, 713, 720 

Scheffé, H., 56, 707 

Schnorr, C. P., 507, 713, 714 

Scholtz, R. A., 702 

Schrödinger’ s wave equation, xvii (3wa h) 

Schultheiss, P. M., 345, 709 

Schumacher, B., 705 

Schwalkwijk, J. P. M., 705 

Schwarz, G., 714 

score function (744) 3X), 393, 394 

second law of thermodynamics, xviii (热力 学 第 二 定律 ， 参 
RATA), 4, 11, 55, 81, 87, 507, see also 
statistical mechanics 

concavity (HH), 100 

self-information (自信 息 )，13，22 

self-punctuating 〈 自 间断 )，468 

setf-reference〈 自 指 涉 ) 483 


sequence length (序列 长 度 )，55 

sequential projection (连续 发 射 )，400 

set sum (集合 之 和 )，675 

sgn function (符号 函数 )，132 

Shakespeare，482 

Shamai, S., 692, 714 

Shannon code (F&F), 115, 122, 131, 132, 142, 
145, 463, 470, 613 

competitive optimality (竞争 最 优 性 )，130，132，142， 

158 

Shannon guessing game (ERIRE), 174 

Shannon lower bound (香农 下 界 )，337 

Shannon’s first theorem (source coding theorem) (香农 第 
一 定理 〈 信 源 编 码 定理 ) ) 115 

Shannon’s second theorem (channel coding theorem) (香农 
第 二 定理 (信道 编码 定理 ))，189，192 

Shannon’s third theorem (rate distortion theorem) (香农 第 
三 定理 〈 率 失真 定理 ))，307 

Shannon, C. E., xv, xviii, 55, 69, 100, 157, 171, 174, 
182, 205, 240, 270, 299, 345, 609, 656, 687, 
699, 714, 715, see also Shannon code, Shannon- 
Fano-Elias code, Shannon-McMillan-Breiman theorem 

Shannon-Fano code (FK — HHR), 158, 491, see also 
Shannon code 

Shannon-Fano-Elias code (Shannon-Fano-Elias #5), 127, 
130, 428 

Shannon-McMillan-Breiman theorem (Shannon-McMillan- 
Breiman 定理 ) 69, 644-649 

Shannon-Nyquist sampling theorem (Shannon-Nyquist 抽样 定 
4), 272 

Sharpe, W. F., 614, 715 

Sharpe-Markowitz theory (Sharpe-Markowitz 理论 ) 614 

Shields, P. C., 462, 715 
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Shor, P. W., 241, 691, 693, 698 

Shore, J. E., 715 

short selling (3225), 181 

Shtarkov, Y. M. 631, 656, 719 

Shtarkov, Y. V., 715 

shuffle 〈 洗 牌 操作 )，84，89 

Shwartz, A., 715 

side information, and source coding ( 边 信 息 与 信 源 编码 )， 
575 

side information, xvii (WA 8), 12, 159, 165, 166, 
180, 255, 574, 576, 580-583, 596, 610, 623, 
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and doubling rate (与 双 倍 率 ) 165, 622 
Siegel, P. H., 704 
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signal (信号 ) 1, 171, 192, 199, 234, 258, 262-299, 
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